24
Keyingi bo‘limlarda natijalar uch qismda taqdim etiladi va muhokama qilinadi.
Birinchidan, e’tibor turli xil kompyuter dasturlarining ba’zi umumiy xususiyatlariga
qaratiladi va xususan, ularning barchasi ketma-ketlik ortiqchaligini to‘g‘ri olib
tashlash imkonini berishi ko‘rsatiladi. Keyinchalik, bir xil kompyuter dasturidan
foydalangan holda ortiqcha qisqartirish tobora kuchayib borayotganida nima sodir
bo‘lishi ko‘rib chiqiladi va barcha dasturlar bu borada o‘xshash tendentsiyalarga ega
ekanligi ko‘rsatiladi. Oxir-oqibat, e’tibor turli usullar yordamida olingan natijalarni
taqqoslashga qaratiladi va turli xil kompyuter dasturlari natijalarida ba’zi
farqlar
kuzatilishi mumkinligi ko‘rsatiladi.
UniProt ma’lumotlar bazasidan olingan ma’lumotlar to‘plamidan foydalangan
holda sinovdan o‘tkazildi. Har bir dastur to‘rt xil PID chegarasidan foydalangan: 40
%, 50 %, 75 % va 90 %. PID ning kichikroq va qattiqroq qiymatlari e’tiborga
olinmadi, chunki ularni 1-jadvaldagi ba’zi dasturlarda ishlatib bo‘lmaydi
(qo‘shimcha materialga qarang). Kutilganidek, agar PID chegarasi oshsa, ortiqcha
bo‘lmagan ma’lumotlar to‘plamlari dasturdan mustaqil ravishda kattalashadi.
Tanlangan PID chegarasiga qarab, 40 %, 50 %, 75 % va 90 %, chiqish maʼlumotlar
toʻplami oʻrtacha kirish maʼlumotlar toʻplamining mos ravishda 90 %, 92 %, 88 %
va 96 % gacha kamayadi. Bundan tashqari, bir xil kirish ma’lumotlar to‘plamlari va
PID chegaralari bilan oziqlanadigan turli dasturlar tomonidan olingan ortiqcha
bo‘lmagan ma’lumotlar to‘plamlaridagi ketma-ketliklar soni juda o‘xshash.
Masalan, 40 % PIDga ega D_100_500 test to‘plamida ortiqcha bo‘lmagan
ma’lumotlar to‘plamidagi ketma-ketliklar soni mos ravishda 97, 97, 96 va 97 ni
tashkil qiladi, Cd-hit, Baliqlar va BlastClust. (qo‘shimcha materialga qarang) turli
xil PID chegara qiymatlarida kirishga (Ptot) nisbatan chiqishda topilgan ketma-
ketliklarning foizini ko‘rsatadi. Barcha dasturlar bir xil PID uchun o‘xshash Ptot
qiymatlariga ega, bundan tashqari SkipRedundant PID 90 % uchun past Ptotni
ko‘rsatdi. Kichikroq va qattiqroq PID chegaralari uchun kichikroq Ptot qiymatlari
kuzatilishi ajablanarli emas.
Bundan tashqari, biz kirish ma’lumotlar to‘plamidagi
oqsil ketma-ketligi
uzunligi va natijada ortiqcha bo‘lmagan natijalar o‘rtasida hech qanday bog‘liqlikni
25
kuzatmadik. Barcha dasturlar bu borada yaqindan o‘xshash xatti-harakatni
ko‘rsatadi.
Bundan tashqari, biz har bir ortiqcha bo‘lmagan ma’lumotlar to‘plamidagi
ketma-ketlik o‘xshashlik darajasini ko‘rib chiqdik. Biz Smit-Waterman (mahalliy
tekislash) va Needleman-Wunsch (global alignment) usulidan foydalandik va biz
turli xil kompyuter dasturlari chiqishida ba’zi farqlarni kuzatdik. O‘rtacha
identifikatsiya Smit-Waterman va Needleman-Wunsch usuli uchun mos ravishda 23
% dan 42 % gacha va 15 % dan 21 % gacha. Ortiqcha bo‘lmagan ma’lumotlar
to‘plamlarida (maks. PID = 40 % dan foydalangan holda hisoblangan) juftlik
identifikatsiyasining taqsimlanishiga misol 1-rasmda keltirilgan.
Bizning tadqiqotimiz SkipRedundant dasturi uchun noaniq ma’lumotlarni
ko‘rsatdi. 50 % va undan past identifikatsiya foizlari uchun, kiritilgan ma’lumotlar
to‘plamidan qat'i nazar, dastur faqat bir nechta klaster vakillarini o‘z
ichiga olgan
natijalar haqida xabar berdi, ular keyinchalik tahlil qilinmadi. Shuning uchun 40 %
va 50 % identifikatsiya foizlari bilan ushbu dastur tomonidan olingan natijalar ushbu
tadqiqotda boshqa hisobga olinmaydi.
Ushbu natijalar aniq ko‘rsatib turibdiki, barcha dasturlar, hatto ularning
ba’zilari tomonidan ko‘rsatilgan cheklovlarda ham,
ortiqchalik ketma-ketlik
o‘xshashligi darajasiga bog‘liq bo‘lsa, haqiqatan ham ortiqcha bo‘lmagan ketma-
ketliklar ma’lumotlar to‘plamini ishlab chiqarishga qodir. Ko‘rinib turibdiki,
shuning uchun ushbu dasturlarning har qandayidan foydalanish mumkin va u yoki
boshqasini afzal ko‘rish uchun hech qanday sabab yo‘q.
Ilgari, biz ortiqcha bo‘lmagan ma’lumotlar to‘plamining o‘lchami dasturlar
tomonidan ishlatiladigan identifikatsiya chegarasi ulushi bilan ortib borishini
ko‘rsatdik. Masalan, agar PID chegarasi 40 % bo‘lsa, D_100_800 ma’lumotlar
to‘plami bilan oziqlangan Baliqlar tomonidan chiqarilgan 91
ta ketma-ketlik
mavjud, agar chegara 50 % bo‘lsa, 92 ta ketma-ketlik chiqariladi. Xuddi shu kirish
va turli PID chegaralari bilan oziqlanadigan bir xil dastur tomonidan ishlab
chiqarilgan 91 va 92 ketma-ketliklarning ushbu ikkita ma’lumotlar to‘plami
o‘rtasidagi o‘zaro bog‘liqlikni o‘rganish ham qiziq. Bir-biriga yopishish kichikroq
26
ma’lumotlar to‘plamidagi oqsillarning kattaroq ma’lumotlar to‘plamida ham
kuzatiladigan foizi sifatida o‘lchanadi. Natijalar shuni ko‘rsatadiki, bir-biriga
o‘xshashlik ko‘p hollarda 100 % ni tashkil qiladi. Garchi bir necha hollarda bu
qiymat 100 % dan bir oz kichikroq bo‘lsa-da, u hech qachon 96 % dan kam
bo‘lmaydi.
Shu bilan bir qatorda, bu ortiqcha bo‘lmagan chegaraning bosqichma-bosqich
mustahkamlanishi bo‘yicha chiqish tarkibining o‘zgarmasligi
sifatida tavsiflanishi
mumkin: agar PID chegarasi yanada qat'iylashtirilsa, masalan, uni 50 % dan 40 %
gacha kamaytirish orqali ketma-ketliklar saqlanib qoladi. 40 % ortiqcha bo‘lmagan
ishlab chiqarishda 50 % ishlab chiqarishda allaqachon mavjud edi. Buni chiqishdagi
ketma-ketliklar soni foydalanuvchi tomonidan belgilangan identifikatsiya chegarasi
foiziga bog‘liq, lekin klaster vakillarini tanlash xuddi shu chegaradan mustaqil
ekanligi bilan izohlash mumkin.