|
Tabiiy Fanlar Fakulteti Biologiya yo’nalishi 22. 59-guruh Talabasi Ortiqov Samandarning Genetika va Genomika asoslari fanidan "Genomikada qo’llaniladigan bioinformatik dasturlar" bo’yicha tayyorlagan referat
|
bet | 3/3 | Sana | 14.05.2024 | Hajmi | 159,08 Kb. | | #233762 | Turi | Referat |
Bog'liq GENOMIKA BIOINformatik dastur genoogleParalellashtirish metodi.
Qidiruv vaqtini yaxshilash va ko'p ishlov berish imkoniyatlaridan foydalanish uchun,genoogle uchta parallellashtirish texnikasidan foydalanadi: teskari indeksga kirishni parallellashtirish,kengaytirish va tekislashni parallellashtirish va ma'lumotlar banki bo'linishini parallellashtirish. Ma'lumotlar bankining bo'linishini parallellashtirish NCBI BLAST singari ma'lumotlar bankini bo'laklarga bo'lish orqali amalga oshiriladi. Indekslarni qidirish va HSP konstruktsiyalari har bir ma'lumotlar banki fragmenti uchun mustaqil ravishda iplarga aylantiriladi.
4-Rasm.. Teskari holatda indeksidan pastki ketma-ketlik lokalizatsiya ma'lumotlarini olish jarayoni.
Natijalar;
Tajribalarni bajarish uchun ular 11 ta kirish ketma-ketligi to'plamini yaratadilar. Har bir to'plamda taxminan bir xil o'lchamdagi 11 ta ketma-ketlik mavjud, ya'ni 1 ma'lumotlar bankidan olingan ketma-ketlik va 10 ta bu ketma-ketliklarning mutatsiyalari hisoblanadi. To'plamlar 80 ta asosiy juftlik (bp), 200bp, 500bp, 1.000bp, 5.000bp, 10.000bp boʻlgan ketma-ketliklarga ega. 50.000bp, 100.000bp, 500.000bp va 1.000.000bp. Qidiruvlar yordamida amalga oshiriladi, kirish ketma-ketligini parallelizmga bo'lish va kengaytirish va ketma-ketliklarni bir vaqtning o'zida tekislash kerak.
Vaqtni taqqoslash uchun qo'shimcha daraxtlarni ishlatadigan asboblardan foydalanish bu vositalar tomonidan talab qilinadigan xotira tufayli bekor qilindi. Fikr sinovlari, tasdiqlandi va BLAST dasturiy ta'minoti 4 Gb dan katta ma'lumotlar banklari bilan ishlay olmaydi. MegaBlast esa tasdiqlanmagan, chunki MegaBLAST samarali ishlash uchun ishlab chiqilganligini aytadi. Lekin, qidiruv vaqti, natijalar sifati NCBI BLAST dan yomonroq, chunki urug'larning minimal hajmi 28bp. Natijalarning sifati pastligi sababli, u ushbu vosita bilan tajriba o'tkazmaslikka qaror qilindi. Indekslangan MegaBlastda bajarib bo'lmaydi, chunki uning xotirasi 4 marta ortiq ma'lumotlar bankini talab qiladi, mavjud 16 Gb dan ortiq bolishi kerak.. Va nihoyat, uni olishning iloji bo'lmadi.Tajribalarni bajarish uchun PatternHunter. Shunday qilib, faqat NCBI BLAST ga taqqoslashga qaror qilindi.
Genoogle va BLAST ning ketma-ket qidiruv vaqtlarini solishtirganda, Genoogle deyarli 20 baravar tezroq va parallel vaqtlarni taqqoslaganda, Genoogle 26-60 marta tezroq ekanligi isbotlandi. Shuni tushunish qiziqki, kichikroq kirish uchun 5000bp gacha, BLAST bilan bog'liq vaqt esa juda yaxshi emas, chunki parallelizatsiya texnikalar bu kichik kirishlarda barcha imkoniyatlaridan foydalanmaydi. Vaqt farqi kattaroq kirishlarda 100.000bp kiritish uchun 29 martagacha keladi. Tushunish muhim Genoogle-ning ketma-ket versiyasi parallel bajarilishiga qaraganda tezroq boladi.
5-Rasm. Ketna-ket NCBI va Genoogle ni ortasidagi vaqtni taqqoslash.
6-Rasm. . Parallel NCBI BLAST va parallel Genoogle o'rtasidagi vaqtni taqqoslash.
Xulosa
Ushbu ish parallel hisoblash bilan birga ma'lumotlar banki ketma-ketliklarini indekslashdan foydalanadigan genetik o'xshashlik ketma-ketligini qidirish dasturini taqdim etadi. Indeks va parallel hisoblashdan foydalanish samaradorligi va qidiruv sifatini ta'minlash uchun Genoogle vositasi ishlab chiqildi va joriy etilgan. Ushbu dastur Java 1.6 yordamida amalga oshirilgan va uni Windows, Linux va Mac muhitida bajarish mumkin. Natijalarni bajarish vaqtini va natijalar sifatini tekshirish uchun tajribalar o'tkaziladi. Qidiruv vaqti haqiqatan ham Genoogleda yaxshi bo'ldi, parallellashtirilgan BLASTga nisbatan 20 marta tez amalga oshadi. Natijalar sifati yaxshi bo'lib, tegishli moslamalarni topadi, ammo qidiruv parametrlarini o'zgartirish orqali uni optimallashtirish mumkin. Shunday qilib, indekslash usullarini uchta parallellashtirish texnikasi bilan birlashtirish va qidiruv konfiguratsiyasini optimallashtirish uchun Genoogle samarali vosita ekanligini isbotladi va uning natijalari yaxshi chiqdi.
Ushbu ishning asosiy hissasi sifatida, birinchi navbatda, indekslash va parallel hisoblash yordamida genetik ketma-ketlikni qidirishni adabiyotda birinchi vosita sifatida ta'kidlash kerak. Protsessorlarda yadrolar sonining ko'payishi bilan parallel hisoblashning ahamiyati ortib borayotganini, shuningdek, eksponentsial o'sishga ega bo'lgan ma'lumotlar banklarida qidirish jarayonini optimallashtirish uchun ma'lumotlarni indekslashning ahamiyatini hisobga olsak, bu ish ushbu ikki muammoni birgalikda hal qilish uchun judayam kerakli hisoblanadi.
Foydalanilgan adabiyotlar:
1.F. Altschul, V. Gish, V. Miller, E. Myers va D. Lipman. Mahalliy moslashtirishni qidirishning asosiy vositasi. Molekulyar biologiya jurnali, 215 (3): 403-410, nashr. 1995 yil
2. SF Altschul, AA Shaffer, Z. Zhang, V. Miller va DJ Lipman. Gapped blast va psi-blast: yangi avlod OS protein ma'lumotlar bazasini qidirish dasturlari. Nuklein kislotalari Res., 25:3389-3402, 1997
3. Isobel Anderson va Endi Brass. DNK ma'lumotlar bazalarini DNK ketma-ketligiga o'xshashlik uchun qidirish: qachon mos kelishi muhim? Bioinformatika, 14(4):349–356, 1998 yil yanvar.
4. Maykl Kemeron va Xyu Uilyams. Nukleotid portlashini tezroq qidirish uchun siqilgan ketma-ketliklarni solishtirish. Hisoblash biologiyasi va bioinformatika bo'yicha IEEE/ACM operatsiyalari (TCBB), 4 (3): 349-364, 2007.
|
|
Bosh sahifa
Aloqalar
Bosh sahifa
Tabiiy Fanlar Fakulteti Biologiya yo’nalishi 22. 59-guruh Talabasi Ortiqov Samandarning Genetika va Genomika asoslari fanidan "Genomikada qo’llaniladigan bioinformatik dasturlar" bo’yicha tayyorlagan referat
|