• SkipRedundant (EMBOSS)
  • Aniq va tabiiy fanlar




    Download 1,9 Mb.
    Pdf ko'rish
    bet10/20
    Sana07.02.2024
    Hajmi1,9 Mb.
    #152551
    1   ...   6   7   8   9   10   11   12   13   ...   20
    Bog'liq
    Biologik ketma –ketliklarni ma’lumot bazalari bo’yicha ko’plik

    BlastClust (BLAST) 
    Algoritm BLAST yordamida barcha ketma-ketliklarni juftlik bilan 
    taqqoslashdan boshlanadi. Har bir juftlik taqqoslash uchun BLAST ikkita 
    “qoplama” va “baho zichligi” qiymatini hisoblab chiqadi. “Qoplama” foydalanuvchi 
    qaroriga qarab max (Cx,Cy) yoki min (Cx,Cy) sifatida aniqlanadi, bunda Cx (Cy) x 
    ketma-ketligi bo‘yicha yuqori ball segmenti juftligi uzunligi o‘rtasidagi nisbatdir. y) 
    va ketma-ketlikning uzunligi x (y). "Baho zichligi" bir xil qoldiqlar soni va agar 
    mavjud bo‘lsa, bo‘shliqlarni o‘z ichiga olgan tekislash uzunligi o‘rtasidagi nisbat 
    sifatida aniqlanadi. Shu bilan bir qatorda "bal zichligi" BLAST balli va min(HxHy) 
    o‘rtasidagi nisbat sifatida belgilanishi mumkin, bunda Hx (Hy) x (y) ketma-
    ketligidagi yuqori ball segmenti juftligi uzunligidir. Agar bu ikki qiymat ma’lum 
    chegaradan yuqori bo‘lsa. solishtiriladigan ikkita ketma-ketlik qo‘shni hisoblanadi. 
    Shunday qilib, barcha kirish ketma-ketliklarining qo‘shni munosabatlari ro‘yxati 
    aniqlanadi. Ushbu ro‘yxat bitta ulanishli klasterlash jarayoniga kiritilgan. Ushbu 
    klasterlash usuli klaster vakili sifatida birinchi ketma-ketlikdan boshlanadi va agar 
    ketma-ketlik klasterdagi kamida bitta ketma-ketlikning qo‘shnisi bo‘lsa, ushbu 
    klasterga boshqa ketma-ketlikni qo‘yadi. Qolgan barcha (klasterlanmagan) ketma-
    ketliklar yangi ro‘yxatda saqlanadi va xuddi shu protsedura yana qo‘llaniladi. 
    BlastClust ushbu protsedurani barcha ketma-ketliklar klasterlashguncha takrorlaydi. 
    SkipRedundant (EMBOSS) 
    Ushbu usul bilan barcha juftlik ketma-ketliklari Needleman-Wunsch global 
    hizalama algoritmining EMBOSS amalga oshirilishi yordamida hisoblab chiqiladi. 
    Dastur ortiqcha ketma-ketlikni olib tashlash uchun ikkita protseduradan foydalanishi 
    mumkin: 
    Agar bir juft oqsil chegaradan (foydalanuvchi tomonidan ko‘rsatilgan) kattaroq 
    ketma-ketlik identifikatsiya foiziga erishsa, eng qisqa ketma-ketlik bekor qilinadi; 
    Agar bir juft oqsil qator identifikatsiya foiziga ega bo‘lsa, u diapazondan 
    tashqarida (foydalanuvchi tomonidan ko‘rsatilgan) eng qisqa ketma-ketlik 
    o‘chiriladi. Ketma-ketliklar olib tashlanganidan so‘ng, ro‘yxat faqat ortiqcha 
    bo‘lmagan yozuvlarni o‘z ichiga oladi. 


    24 
    Keyingi bo‘limlarda natijalar uch qismda taqdim etiladi va muhokama qilinadi. 
    Birinchidan, e’tibor turli xil kompyuter dasturlarining ba’zi umumiy xususiyatlariga 
    qaratiladi va xususan, ularning barchasi ketma-ketlik ortiqchaligini to‘g‘ri olib 
    tashlash imkonini berishi ko‘rsatiladi. Keyinchalik, bir xil kompyuter dasturidan 
    foydalangan holda ortiqcha qisqartirish tobora kuchayib borayotganida nima sodir 
    bo‘lishi ko‘rib chiqiladi va barcha dasturlar bu borada o‘xshash tendentsiyalarga ega 
    ekanligi ko‘rsatiladi. Oxir-oqibat, e’tibor turli usullar yordamida olingan natijalarni 
    taqqoslashga qaratiladi va turli xil kompyuter dasturlari natijalarida ba’zi farqlar 
    kuzatilishi mumkinligi ko‘rsatiladi. 
    UniProt ma’lumotlar bazasidan olingan ma’lumotlar to‘plamidan foydalangan 
    holda sinovdan o‘tkazildi. Har bir dastur to‘rt xil PID chegarasidan foydalangan: 40 
    %, 50 %, 75 % va 90 %. PID ning kichikroq va qattiqroq qiymatlari e’tiborga 
    olinmadi, chunki ularni 1-jadvaldagi ba’zi dasturlarda ishlatib bo‘lmaydi 
    (qo‘shimcha materialga qarang). Kutilganidek, agar PID chegarasi oshsa, ortiqcha 
    bo‘lmagan ma’lumotlar to‘plamlari dasturdan mustaqil ravishda kattalashadi. 
    Tanlangan PID chegarasiga qarab, 40 %, 50 %, 75 % va 90 %, chiqish maʼlumotlar 
    toʻplami oʻrtacha kirish maʼlumotlar toʻplamining mos ravishda 90 %, 92 %, 88 % 
    va 96 % gacha kamayadi. Bundan tashqari, bir xil kirish ma’lumotlar to‘plamlari va 
    PID chegaralari bilan oziqlanadigan turli dasturlar tomonidan olingan ortiqcha 
    bo‘lmagan ma’lumotlar to‘plamlaridagi ketma-ketliklar soni juda o‘xshash. 
    Masalan, 40 % PIDga ega D_100_500 test to‘plamida ortiqcha bo‘lmagan 
    ma’lumotlar to‘plamidagi ketma-ketliklar soni mos ravishda 97, 97, 96 va 97 ni 
    tashkil qiladi, Cd-hit, Baliqlar va BlastClust. (qo‘shimcha materialga qarang) turli 
    xil PID chegara qiymatlarida kirishga (Ptot) nisbatan chiqishda topilgan ketma-
    ketliklarning foizini ko‘rsatadi. Barcha dasturlar bir xil PID uchun o‘xshash Ptot 
    qiymatlariga ega, bundan tashqari SkipRedundant PID 90 % uchun past Ptotni 
    ko‘rsatdi. Kichikroq va qattiqroq PID chegaralari uchun kichikroq Ptot qiymatlari 
    kuzatilishi ajablanarli emas. 
    Bundan tashqari, biz kirish ma’lumotlar to‘plamidagi oqsil ketma-ketligi 
    uzunligi va natijada ortiqcha bo‘lmagan natijalar o‘rtasida hech qanday bog‘liqlikni 


    25 
    kuzatmadik. Barcha dasturlar bu borada yaqindan o‘xshash xatti-harakatni 
    ko‘rsatadi. 
    Bundan tashqari, biz har bir ortiqcha bo‘lmagan ma’lumotlar to‘plamidagi 
    ketma-ketlik o‘xshashlik darajasini ko‘rib chiqdik. Biz Smit-Waterman (mahalliy 
    tekislash) va Needleman-Wunsch (global alignment) usulidan foydalandik va biz 
    turli xil kompyuter dasturlari chiqishida ba’zi farqlarni kuzatdik. O‘rtacha 
    identifikatsiya Smit-Waterman va Needleman-Wunsch usuli uchun mos ravishda 23 
    % dan 42 % gacha va 15 % dan 21 % gacha. Ortiqcha bo‘lmagan ma’lumotlar 
    to‘plamlarida (maks. PID = 40 % dan foydalangan holda hisoblangan) juftlik 
    identifikatsiyasining taqsimlanishiga misol 1-rasmda keltirilgan. 
    Bizning tadqiqotimiz SkipRedundant dasturi uchun noaniq ma’lumotlarni 
    ko‘rsatdi. 50 % va undan past identifikatsiya foizlari uchun, kiritilgan ma’lumotlar 
    to‘plamidan qat'i nazar, dastur faqat bir nechta klaster vakillarini o‘z ichiga olgan 
    natijalar haqida xabar berdi, ular keyinchalik tahlil qilinmadi. Shuning uchun 40 % 
    va 50 % identifikatsiya foizlari bilan ushbu dastur tomonidan olingan natijalar ushbu 
    tadqiqotda boshqa hisobga olinmaydi. 
    Ushbu natijalar aniq ko‘rsatib turibdiki, barcha dasturlar, hatto ularning 
    ba’zilari tomonidan ko‘rsatilgan cheklovlarda ham, ortiqchalik ketma-ketlik 
    o‘xshashligi darajasiga bog‘liq bo‘lsa, haqiqatan ham ortiqcha bo‘lmagan ketma-
    ketliklar ma’lumotlar to‘plamini ishlab chiqarishga qodir. Ko‘rinib turibdiki, 
    shuning uchun ushbu dasturlarning har qandayidan foydalanish mumkin va u yoki 
    boshqasini afzal ko‘rish uchun hech qanday sabab yo‘q. 
    Ilgari, biz ortiqcha bo‘lmagan ma’lumotlar to‘plamining o‘lchami dasturlar 
    tomonidan ishlatiladigan identifikatsiya chegarasi ulushi bilan ortib borishini 
    ko‘rsatdik. Masalan, agar PID chegarasi 40 % bo‘lsa, D_100_800 ma’lumotlar 
    to‘plami bilan oziqlangan Baliqlar tomonidan chiqarilgan 91 ta ketma-ketlik 
    mavjud, agar chegara 50 % bo‘lsa, 92 ta ketma-ketlik chiqariladi. Xuddi shu kirish 
    va turli PID chegaralari bilan oziqlanadigan bir xil dastur tomonidan ishlab 
    chiqarilgan 91 va 92 ketma-ketliklarning ushbu ikkita ma’lumotlar to‘plami 
    o‘rtasidagi o‘zaro bog‘liqlikni o‘rganish ham qiziq. Bir-biriga yopishish kichikroq 


    26 
    ma’lumotlar to‘plamidagi oqsillarning kattaroq ma’lumotlar to‘plamida ham 
    kuzatiladigan foizi sifatida o‘lchanadi. Natijalar shuni ko‘rsatadiki, bir-biriga 
    o‘xshashlik ko‘p hollarda 100 % ni tashkil qiladi. Garchi bir necha hollarda bu 
    qiymat 100 % dan bir oz kichikroq bo‘lsa-da, u hech qachon 96 % dan kam 
    bo‘lmaydi. 
    Shu bilan bir qatorda, bu ortiqcha bo‘lmagan chegaraning bosqichma-bosqich 
    mustahkamlanishi bo‘yicha chiqish tarkibining o‘zgarmasligi sifatida tavsiflanishi 
    mumkin: agar PID chegarasi yanada qat'iylashtirilsa, masalan, uni 50 % dan 40 % 
    gacha kamaytirish orqali ketma-ketliklar saqlanib qoladi. 40 % ortiqcha bo‘lmagan 
    ishlab chiqarishda 50 % ishlab chiqarishda allaqachon mavjud edi. Buni chiqishdagi 
    ketma-ketliklar soni foydalanuvchi tomonidan belgilangan identifikatsiya chegarasi 
    foiziga bog‘liq, lekin klaster vakillarini tanlash xuddi shu chegaradan mustaqil 
    ekanligi bilan izohlash mumkin. 

    Download 1,9 Mb.
    1   ...   6   7   8   9   10   11   12   13   ...   20




    Download 1,9 Mb.
    Pdf ko'rish