|
Aniq va tabiiy fanlar
|
bet | 9/18 | Sana | 17.02.2024 | Hajmi | 1,73 Mb. | | #158021 |
Bog'liq Biologik ketma-ketlikni taqqoslash. Gomologik ketma-ketliklar BlastClust (BLAST)
Algoritm BLAST yordamida barcha ketma-ketliklarni juftlik bilan taqqoslashdan boshlanadi. Har bir juftlik taqqoslash uchun BLAST ikkita “qoplama” va “baho zichligi” qiymatini hisoblab chiqadi. “Qoplama” foydalanuvchi qaroriga qarab max (Cx,Cy) yoki min (Cx,Cy) sifatida aniqlanadi, bunda Cx (Cy) x ketma-ketligi bo‘yicha yuqori ball segmenti juftligi uzunligi o‘rtasidagi nisbatdir. y) va ketma-ketlikning uzunligi x (y). "Baho zichligi" bir xil qoldiqlar soni va agar mavjud bo‘lsa, bo‘shliqlarni o‘z ichiga olgan tekislash uzunligi o‘rtasidagi nisbat sifatida aniqlanadi. Shu bilan bir qatorda "bal zichligi" BLAST balli va min(HxHy) o‘rtasidagi nisbat sifatida belgilanishi mumkin, bunda Hx (Hy) x (y) ketma- ketligidagi yuqori ball segmenti juftligi uzunligidir. Agar bu ikki qiymat ma’lum chegaradan yuqori bo‘lsa. solishtiriladigan ikkita ketma-ketlik qo‘shni hisoblanadi. Shunday qilib, barcha kirish ketma-ketliklarining qo‘shni munosabatlari ro‘yxati aniqlanadi. Ushbu ro‘yxat bitta ulanishli klasterlash jarayoniga kiritilgan. Ushbu klasterlash usuli klaster vakili sifatida birinchi ketma-ketlikdan boshlanadi va agar ketma-ketlik klasterdagi kamida bitta ketma-ketlikning qo‘shnisi bo‘lsa, ushbu klasterga boshqa ketma-ketlikni qo‘yadi. Qolgan barcha (klasterlanmagan) ketma- ketliklar yangi ro‘yxatda saqlanadi va xuddi shu protsedura yana qo‘llaniladi. BlastClust ushbu protsedurani barcha ketma-ketliklar klasterlashguncha takrorlaydi.
SkipRedundant (EMBOSS)
Ushbu usul bilan barcha juftlik ketma-ketliklari Needleman-Wunsch global hizalama algoritmining EMBOSS amalga oshirilishi yordamida hisoblab chiqiladi. Dastur ortiqcha ketma-ketlikni olib tashlash uchun ikkita protseduradan foydalanishi mumkin:
Agar bir juft oqsil chegaradan (foydalanuvchi tomonidan ko‘rsatilgan) kattaroq ketma-ketlik identifikatsiya foiziga erishsa, eng qisqa ketma-ketlik bekor qilinadi;
Agar bir juft oqsil qator identifikatsiya foiziga ega bo‘lsa, u diapazondan tashqarida (foydalanuvchi tomonidan ko‘rsatilgan) eng qisqa ketma-ketlik o‘chiriladi. Ketma-ketliklar olib tashlanganidan so‘ng, ro‘yxat faqat ortiqcha bo‘lmagan yozuvlarni o‘z ichiga oladi.
Keyingi bo‘limlarda natijalar uch qismda taqdim etiladi va muhokama qilinadi. Birinchidan, e’tibor turli xil kompyuter dasturlarining ba’zi umumiy xususiyatlariga qaratiladi va xususan, ularning barchasi ketma-ketlik ortiqchaligini to‘g‘ri olib tashlash imkonini berishi ko‘rsatiladi. Keyinchalik, bir xil kompyuter dasturidan foydalangan holda ortiqcha qisqartirish tobora kuchayib borayotganida nima sodir bo‘lishi ko‘rib chiqiladi va barcha dasturlar bu borada o‘xshash tendentsiyalarga ega ekanligi ko‘rsatiladi. Oxir-oqibat, e’tibor turli usullar yordamida olingan natijalarni taqqoslashga qaratiladi va turli xil kompyuter dasturlari natijalarida ba’zi farqlar kuzatilishi mumkinligi ko‘rsatiladi.
UniProt ma’lumotlar bazasidan olingan ma’lumotlar to‘plamidan foydalangan holda sinovdan o‘tkazildi. Har bir dastur to‘rt xil PID chegarasidan foydalangan: 40
%, 50 %, 75 % va 90 %. PID ning kichikroq va qattiqroq qiymatlari e’tiborga olinmadi, chunki ularni 1-jadvaldagi ba’zi dasturlarda ishlatib bo‘lmaydi (qo‘shimcha materialga qarang). Kutilganidek, agar PID chegarasi oshsa, ortiqcha bo‘lmagan ma’lumotlar to‘plamlari dasturdan mustaqil ravishda kattalashadi. Tanlangan PID chegarasiga qarab, 40 %, 50 %, 75 % va 90 %, chiqish maʼlumotlar toʻplami oʻrtacha kirish maʼlumotlar toʻplamining mos ravishda 90 %, 92 %, 88 % va 96 % gacha kamayadi. Bundan tashqari, bir xil kirish ma’lumotlar to‘plamlari va PID chegaralari bilan oziqlanadigan turli dasturlar tomonidan olingan ortiqcha bo‘lmagan ma’lumotlar to‘plamlaridagi ketma-ketliklar soni juda o‘xshash. Masalan, 40 % PIDga ega D_100_500 test to‘plamida ortiqcha bo‘lmagan ma’lumotlar to‘plamidagi ketma-ketliklar soni mos ravishda 97, 97, 96 va 97 ni tashkil qiladi, Cd-hit, Baliqlar va BlastClust. (qo‘shimcha materialga qarang) turli xil PID chegara qiymatlarida kirishga (Ptot) nisbatan chiqishda topilgan ketma- ketliklarning foizini ko‘rsatadi. Barcha dasturlar bir xil PID uchun o‘xshash Ptot qiymatlariga ega, bundan tashqari SkipRedundant PID 90 % uchun past Ptotni ko‘rsatdi. Kichikroq va qattiqroq PID chegaralari uchun kichikroq Ptot qiymatlari kuzatilishi ajablanarli emas.
Bundan tashqari, biz kirish ma’lumotlar to‘plamidagi oqsil ketma-ketligi uzunligi va natijada ortiqcha bo‘lmagan natijalar o‘rtasida hech qanday bog‘liqlikni
kuzatmadik. Barcha dasturlar bu borada yaqindan o‘xshash xatti-harakatni ko‘rsatadi.
Bundan tashqari, biz har bir ortiqcha bo‘lmagan ma’lumotlar to‘plamidagi ketma-ketlik o‘xshashlik darajasini ko‘rib chiqdik. Biz Smit-Waterman (mahalliy tekislash) va Needleman-Wunsch (global alignment) usulidan foydalandik va biz turli xil kompyuter dasturlari chiqishida ba’zi farqlarni kuzatdik. O‘rtacha identifikatsiya Smit-Waterman va Needleman-Wunsch usuli uchun mos ravishda 23
% dan 42 % gacha va 15 % dan 21 % gacha. Ortiqcha bo‘lmagan ma’lumotlar to‘plamlarida (maks. PID = 40 % dan foydalangan holda hisoblangan) juftlik identifikatsiyasining taqsimlanishiga misol 1-rasmda keltirilgan.
Bizning tadqiqotimiz SkipRedundant dasturi uchun noaniq ma’lumotlarni ko‘rsatdi. 50 % va undan past identifikatsiya foizlari uchun, kiritilgan ma’lumotlar to‘plamidan qat'i nazar, dastur faqat bir nechta klaster vakillarini o‘z ichiga olgan natijalar haqida xabar berdi, ular keyinchalik tahlil qilinmadi. Shuning uchun 40 % va 50 % identifikatsiya foizlari bilan ushbu dastur tomonidan olingan natijalar ushbu tadqiqotda boshqa hisobga olinmaydi.
Ushbu natijalar aniq ko‘rsatib turibdiki, barcha dasturlar, hatto ularning ba’zilari tomonidan ko‘rsatilgan cheklovlarda ham, ortiqchalik ketma-ketlik o‘xshashligi darajasiga bog‘liq bo‘lsa, haqiqatan ham ortiqcha bo‘lmagan ketma- ketliklar ma’lumotlar to‘plamini ishlab chiqarishga qodir. Ko‘rinib turibdiki, shuning uchun ushbu dasturlarning har qandayidan foydalanish mumkin va u yoki boshqasini afzal ko‘rish uchun hech qanday sabab yo‘q.
Ilgari, biz ortiqcha bo‘lmagan ma’lumotlar to‘plamining o‘lchami dasturlar tomonidan ishlatiladigan identifikatsiya chegarasi ulushi bilan ortib borishini ko‘rsatdik. Masalan, agar PID chegarasi 40 % bo‘lsa, D_100_800 ma’lumotlar to‘plami bilan oziqlangan Baliqlar tomonidan chiqarilgan 91 ta ketma-ketlik mavjud, agar chegara 50 % bo‘lsa, 92 ta ketma-ketlik chiqariladi. Xuddi shu kirish va turli PID chegaralari bilan oziqlanadigan bir xil dastur tomonidan ishlab chiqarilgan 91 va 92 ketma-ketliklarning ushbu ikkita ma’lumotlar to‘plami o‘rtasidagi o‘zaro bog‘liqlikni o‘rganish ham qiziq. Bir-biriga yopishish kichikroq
ma’lumotlar to‘plamidagi oqsillarning kattaroq ma’lumotlar to‘plamida ham kuzatiladigan foizi sifatida o‘lchanadi. Natijalar shuni ko‘rsatadiki, bir-biriga o‘xshashlik ko‘p hollarda 100 % ni tashkil qiladi. Garchi bir necha hollarda bu qiymat 100 % dan bir oz kichikroq bo‘lsa-da, u hech qachon 96 % dan kam bo‘lmaydi.
Shu bilan bir qatorda, bu ortiqcha bo‘lmagan chegaraning bosqichma-bosqich mustahkamlanishi bo‘yicha chiqish tarkibining o‘zgarmasligi sifatida tavsiflanishi mumkin: agar PID chegarasi yanada qat'iylashtirilsa, masalan, uni 50 % dan 40 % gacha kamaytirish orqali ketma-ketliklar saqlanib qoladi. 40 % ortiqcha bo‘lmagan ishlab chiqarishda 50 % ishlab chiqarishda allaqachon mavjud edi. Buni chiqishdagi ketma-ketliklar soni foydalanuvchi tomonidan belgilangan identifikatsiya chegarasi foiziga bog‘liq, lekin klaster vakillarini tanlash xuddi shu chegaradan mustaqil ekanligi bilan izohlash mumkin.
|
| |