BlastClust (BLAST)
Algoritm BLAST yordamida barcha ketma-ketliklarni juftlik bilan
taqqoslashdan boshlanadi. Har bir juftlik taqqoslash uchun BLAST ikkita
“qoplama” va “baho zichligi” qiymatini hisoblab chiqadi. “Qoplama” foydalanuvchi
qaroriga qarab max (Cx,Cy) yoki min (Cx,Cy) sifatida aniqlanadi, bunda Cx (Cy) x
ketma-ketligi bo‘yicha yuqori ball segmenti juftligi uzunligi o‘rtasidagi nisbatdir. y)
va ketma-ketlikning uzunligi x (y). "Baho zichligi" bir xil qoldiqlar soni va agar
mavjud bo‘lsa, bo‘shliqlarni o‘z ichiga olgan tekislash uzunligi o‘rtasidagi nisbat
sifatida aniqlanadi. Shu bilan bir qatorda "bal zichligi" BLAST balli va min(HxHy)
o‘rtasidagi nisbat sifatida belgilanishi mumkin, bunda Hx (Hy) x (y) ketma-
ketligidagi yuqori ball segmenti juftligi uzunligidir. Agar bu ikki qiymat ma’lum
chegaradan yuqori bo‘lsa. solishtiriladigan ikkita ketma-ketlik qo‘shni hisoblanadi.
Shunday qilib, barcha kirish ketma-ketliklarining qo‘shni munosabatlari ro‘yxati
aniqlanadi. Ushbu ro‘yxat bitta ulanishli klasterlash jarayoniga kiritilgan. Ushbu
klasterlash usuli klaster vakili sifatida birinchi ketma-ketlikdan boshlanadi va agar
ketma-ketlik klasterdagi kamida bitta ketma-ketlikning qo‘shnisi bo‘lsa, ushbu
klasterga boshqa ketma-ketlikni qo‘yadi. Qolgan barcha (klasterlanmagan) ketma-
ketliklar yangi ro‘yxatda saqlanadi va xuddi shu protsedura yana qo‘llaniladi.
BlastClust ushbu protsedurani barcha ketma-ketliklar klasterlashguncha takrorlaydi.
SkipRedundant (EMBOSS)
Ushbu usul bilan barcha juftlik ketma-ketliklari Needleman-Wunsch global
hizalama algoritmining EMBOSS amalga oshirilishi yordamida hisoblab chiqiladi.
Dastur ortiqcha ketma-ketlikni olib tashlash uchun ikkita protseduradan foydalanishi
mumkin:
Agar bir juft oqsil chegaradan (foydalanuvchi tomonidan ko‘rsatilgan) kattaroq
ketma-ketlik identifikatsiya foiziga erishsa, eng qisqa ketma-ketlik bekor qilinadi;
Agar bir juft oqsil qator identifikatsiya foiziga ega bo‘lsa, u diapazondan
tashqarida (foydalanuvchi tomonidan ko‘rsatilgan) eng qisqa ketma-ketlik
o‘chiriladi. Ketma-ketliklar olib tashlanganidan so‘ng, ro‘yxat faqat ortiqcha
bo‘lmagan yozuvlarni o‘z ichiga oladi.
24
Keyingi bo‘limlarda natijalar uch qismda taqdim etiladi va muhokama qilinadi.
Birinchidan, e’tibor turli xil kompyuter dasturlarining ba’zi umumiy xususiyatlariga
qaratiladi va xususan, ularning barchasi ketma-ketlik ortiqchaligini to‘g‘ri olib
tashlash imkonini berishi ko‘rsatiladi. Keyinchalik, bir xil kompyuter dasturidan
foydalangan holda ortiqcha qisqartirish tobora kuchayib borayotganida nima sodir
bo‘lishi ko‘rib chiqiladi va barcha dasturlar bu borada o‘xshash tendentsiyalarga ega
ekanligi ko‘rsatiladi. Oxir-oqibat, e’tibor turli usullar yordamida olingan natijalarni
taqqoslashga qaratiladi va turli xil kompyuter dasturlari natijalarida ba’zi farqlar
kuzatilishi mumkinligi ko‘rsatiladi.
UniProt ma’lumotlar bazasidan olingan ma’lumotlar to‘plamidan foydalangan
holda sinovdan o‘tkazildi. Har bir dastur to‘rt xil PID chegarasidan foydalangan: 40
%, 50 %, 75 % va 90 %. PID ning kichikroq va qattiqroq qiymatlari e’tiborga
olinmadi, chunki ularni 1-jadvaldagi ba’zi dasturlarda ishlatib bo‘lmaydi
(qo‘shimcha materialga qarang). Kutilganidek, agar PID chegarasi oshsa, ortiqcha
bo‘lmagan ma’lumotlar to‘plamlari dasturdan mustaqil ravishda kattalashadi.
Tanlangan PID chegarasiga qarab, 40 %, 50 %, 75 % va 90 %, chiqish maʼlumotlar
toʻplami oʻrtacha kirish maʼlumotlar toʻplamining mos ravishda 90 %, 92 %, 88 %
va 96 % gacha kamayadi. Bundan tashqari, bir xil kirish ma’lumotlar to‘plamlari va
PID chegaralari bilan oziqlanadigan turli dasturlar tomonidan olingan ortiqcha
bo‘lmagan ma’lumotlar to‘plamlaridagi ketma-ketliklar soni juda o‘xshash.
Masalan, 40 % PIDga ega D_100_500 test to‘plamida ortiqcha bo‘lmagan
ma’lumotlar to‘plamidagi ketma-ketliklar soni mos ravishda 97, 97, 96 va 97 ni
tashkil qiladi, Cd-hit, Baliqlar va BlastClust. (qo‘shimcha materialga qarang) turli
xil PID chegara qiymatlarida kirishga (Ptot) nisbatan chiqishda topilgan ketma-
ketliklarning foizini ko‘rsatadi. Barcha dasturlar bir xil PID uchun o‘xshash Ptot
qiymatlariga ega, bundan tashqari SkipRedundant PID 90 % uchun past Ptotni
ko‘rsatdi. Kichikroq va qattiqroq PID chegaralari uchun kichikroq Ptot qiymatlari
kuzatilishi ajablanarli emas.
Bundan tashqari, biz kirish ma’lumotlar to‘plamidagi oqsil ketma-ketligi
uzunligi va natijada ortiqcha bo‘lmagan natijalar o‘rtasida hech qanday bog‘liqlikni
25
kuzatmadik. Barcha dasturlar bu borada yaqindan o‘xshash xatti-harakatni
ko‘rsatadi.
Bundan tashqari, biz har bir ortiqcha bo‘lmagan ma’lumotlar to‘plamidagi
ketma-ketlik o‘xshashlik darajasini ko‘rib chiqdik. Biz Smit-Waterman (mahalliy
tekislash) va Needleman-Wunsch (global alignment) usulidan foydalandik va biz
turli xil kompyuter dasturlari chiqishida ba’zi farqlarni kuzatdik. O‘rtacha
identifikatsiya Smit-Waterman va Needleman-Wunsch usuli uchun mos ravishda 23
% dan 42 % gacha va 15 % dan 21 % gacha. Ortiqcha bo‘lmagan ma’lumotlar
to‘plamlarida (maks. PID = 40 % dan foydalangan holda hisoblangan) juftlik
identifikatsiyasining taqsimlanishiga misol 1-rasmda keltirilgan.
Bizning tadqiqotimiz SkipRedundant dasturi uchun noaniq ma’lumotlarni
ko‘rsatdi. 50 % va undan past identifikatsiya foizlari uchun, kiritilgan ma’lumotlar
to‘plamidan qat'i nazar, dastur faqat bir nechta klaster vakillarini o‘z ichiga olgan
natijalar haqida xabar berdi, ular keyinchalik tahlil qilinmadi. Shuning uchun 40 %
va 50 % identifikatsiya foizlari bilan ushbu dastur tomonidan olingan natijalar ushbu
tadqiqotda boshqa hisobga olinmaydi.
Ushbu natijalar aniq ko‘rsatib turibdiki, barcha dasturlar, hatto ularning
ba’zilari tomonidan ko‘rsatilgan cheklovlarda ham, ortiqchalik ketma-ketlik
o‘xshashligi darajasiga bog‘liq bo‘lsa, haqiqatan ham ortiqcha bo‘lmagan ketma-
ketliklar ma’lumotlar to‘plamini ishlab chiqarishga qodir. Ko‘rinib turibdiki,
shuning uchun ushbu dasturlarning har qandayidan foydalanish mumkin va u yoki
boshqasini afzal ko‘rish uchun hech qanday sabab yo‘q.
Ilgari, biz ortiqcha bo‘lmagan ma’lumotlar to‘plamining o‘lchami dasturlar
tomonidan ishlatiladigan identifikatsiya chegarasi ulushi bilan ortib borishini
ko‘rsatdik. Masalan, agar PID chegarasi 40 % bo‘lsa, D_100_800 ma’lumotlar
to‘plami bilan oziqlangan Baliqlar tomonidan chiqarilgan 91 ta ketma-ketlik
mavjud, agar chegara 50 % bo‘lsa, 92 ta ketma-ketlik chiqariladi. Xuddi shu kirish
va turli PID chegaralari bilan oziqlanadigan bir xil dastur tomonidan ishlab
chiqarilgan 91 va 92 ketma-ketliklarning ushbu ikkita ma’lumotlar to‘plami
o‘rtasidagi o‘zaro bog‘liqlikni o‘rganish ham qiziq. Bir-biriga yopishish kichikroq
26
ma’lumotlar to‘plamidagi oqsillarning kattaroq ma’lumotlar to‘plamida ham
kuzatiladigan foizi sifatida o‘lchanadi. Natijalar shuni ko‘rsatadiki, bir-biriga
o‘xshashlik ko‘p hollarda 100 % ni tashkil qiladi. Garchi bir necha hollarda bu
qiymat 100 % dan bir oz kichikroq bo‘lsa-da, u hech qachon 96 % dan kam
bo‘lmaydi.
Shu bilan bir qatorda, bu ortiqcha bo‘lmagan chegaraning bosqichma-bosqich
mustahkamlanishi bo‘yicha chiqish tarkibining o‘zgarmasligi sifatida tavsiflanishi
mumkin: agar PID chegarasi yanada qat'iylashtirilsa, masalan, uni 50 % dan 40 %
gacha kamaytirish orqali ketma-ketliklar saqlanib qoladi. 40 % ortiqcha bo‘lmagan
ishlab chiqarishda 50 % ishlab chiqarishda allaqachon mavjud edi. Buni chiqishdagi
ketma-ketliklar soni foydalanuvchi tomonidan belgilangan identifikatsiya chegarasi
foiziga bog‘liq, lekin klaster vakillarini tanlash xuddi shu chegaradan mustaqil
ekanligi bilan izohlash mumkin.
|