Ortiqchalikni kamaytirish




Download 1,9 Mb.
Pdf ko'rish
bet9/20
Sana07.02.2024
Hajmi1,9 Mb.
#152551
1   ...   5   6   7   8   9   10   11   12   ...   20
Bog'liq
Biologik ketma –ketliklarni ma’lumot bazalari bo’yicha ko’plik

 


21 
Ortiqchalikni kamaytirish 
Ushbu dasturda ishlatiladigan algoritm Cédric Notredame tomonidan ishlab 
chiqilgan va hozirgacha nashr etilmagan. Shuning uchun bu algoritmning tavsifi 
hozircha mavjud emas. 
Cd-hit ketma-ketliklarni klasterlash va ortiqchalikni olib tashlash uchun 
ochko‘z qo‘shimcha algoritmdan foydalanadi. Ketma-ketliklar avval uzunligi 
bo‘yicha kamayish bo‘yicha tartiblanadi. Birinchi klasterning vakili a’zosi sifatida 
eng uzun ketma-ketlik olinadi. Keyin har bir qolgan ketma-ketlik mavjud 
klasterlarning vakillari bilan taqqoslanadi va agar u ulardan biriga etarlicha o‘xshash 
bo‘lsa, u klasterga kiritiladi. Aks holda, vakil sifatida o‘sha ketma-ketlik bilan yangi 
klaster hosil bo‘ladi. Shu tarzda, barcha klasterlar yig‘iladi. 
Ko‘p sonli juft tekislashlar tufayli, klasterlash algoritmining eng ko‘p vaqt talab 
qiluvchi elementi - tekislashlar sonini kamaytirish uchun empirik filtrlar 
qo‘llaniladi. Bular "qisqa so‘z" filtrlari bo‘lib, ular quyidagi taxminga asoslanadi: 
ikkita o‘xshash oqsillar bir xil miqdordagi dipeptidlar, tripeptidlar va boshqalarni 
bo‘lishadi. Shuning uchun bu shartni qanoatlantirmaydigan ketma-ketlik juftlarini 
tekislash shart emas. "Qisqa so‘z" filtrlari tomonidan qo‘yilgan shartlarni qondirgan 
ikkita ketma-ketlikni tekislash Smit-Uoterman algoritmlari yordamida amalga 
oshiriladi, bu ikkita ketma-ketlik uzunligi bo‘yicha bir-biridan juda farq qilsa ham, 
biologik jihatdan mazmunli mahalliy moslashuvni aniqlashga qodir. Optimal 
moslashtirishni hisobga olgan holda, ketma-ketlik identifikatori identifikatsiyalar 
soni va hali mavjud klasterning a’zosi bo‘lmagan ketma-ketlik uzunligi o‘rtasidagi 
nisbat sifatida hisoblanadi. Klasterga yangi ketma-ketlikni kiritish uchun oshib 
ketishi kerak bo‘lgan identifikatsiya chegarasi foydalanuvchi tomonidan beriladi. 
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u 
klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan. 
Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va 
Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma-
ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek 
belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir 


22 
keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan 
belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa, 
istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar 
to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha 
takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori 
ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan 
foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab 
chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar 
kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab 
o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan 
mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida 
aniqlanadi. 
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u 
klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan. 
Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va 
Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma-
ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek 
belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir 
keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan 
belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa, 
istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar 
to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha 
takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori 
ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan 
foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab 
chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar 
kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab 
o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan 
mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida 
aniqlanadi. 


23 

Download 1,9 Mb.
1   ...   5   6   7   8   9   10   11   12   ...   20




Download 1,9 Mb.
Pdf ko'rish