Ortiqchalikni kamaytirish

Download 1,9 Mb. Pdf ko'rish
bet	9/20
Sana	07.02.2024
Hajmi	1,9 Mb.
	#152551

1 ... 5 6 7 8 9 10 11 12 ... 20

Bog'liq
Biologik ketma –ketliklarni ma’lumot bazalari bo’yicha ko’plik

21
Ortiqchalikni kamaytirish
Ushbu dasturda ishlatiladigan algoritm Cédric Notredame tomonidan ishlab
chiqilgan va hozirgacha nashr etilmagan. Shuning uchun bu algoritmning tavsifi
hozircha mavjud emas.
Cd-hit ketma-ketliklarni klasterlash va ortiqchalikni olib tashlash uchun
ochko‘z qo‘shimcha algoritmdan foydalanadi. Ketma-ketliklar avval uzunligi
bo‘yicha kamayish bo‘yicha tartiblanadi. Birinchi klasterning vakili a’zosi sifatida
eng uzun ketma-ketlik olinadi. Keyin har bir qolgan ketma-ketlik mavjud
klasterlarning vakillari bilan taqqoslanadi va agar u ulardan biriga etarlicha o‘xshash
bo‘lsa, u klasterga kiritiladi. Aks holda, vakil sifatida o‘sha ketma-ketlik bilan yangi
klaster hosil bo‘ladi. Shu tarzda, barcha klasterlar yig‘iladi.
Ko‘p sonli juft tekislashlar tufayli, klasterlash algoritmining eng ko‘p vaqt talab
qiluvchi elementi - tekislashlar sonini kamaytirish uchun empirik filtrlar
qo‘llaniladi. Bular "qisqa so‘z" filtrlari bo‘lib, ular quyidagi taxminga asoslanadi:
ikkita o‘xshash oqsillar bir xil miqdordagi dipeptidlar, tripeptidlar va boshqalarni
bo‘lishadi. Shuning uchun bu shartni qanoatlantirmaydigan ketma-ketlik juftlarini
tekislash shart emas. "Qisqa so‘z" filtrlari tomonidan qo‘yilgan shartlarni qondirgan
ikkita ketma-ketlikni tekislash Smit-Uoterman algoritmlari yordamida amalga
oshiriladi, bu ikkita ketma-ketlik uzunligi bo‘yicha bir-biridan juda farq qilsa ham,
biologik jihatdan mazmunli mahalliy moslashuvni aniqlashga qodir. Optimal
moslashtirishni hisobga olgan holda, ketma-ketlik identifikatori identifikatsiyalar
soni va hali mavjud klasterning a’zosi bo‘lmagan ketma-ketlik uzunligi o‘rtasidagi
nisbat sifatida hisoblanadi. Klasterga yangi ketma-ketlikni kiritish uchun oshib
ketishi kerak bo‘lgan identifikatsiya chegarasi foydalanuvchi tomonidan beriladi.
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u
klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan.
Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va
Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma-
ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek
belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir

22
keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan
belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa,
istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar
to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha
takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori
ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan
foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab
chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar
kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab
o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan
mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida
aniqlanadi.
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u
klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan.
Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va
Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma-
ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek
belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir
keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan
belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa,
istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar
to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha
takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori
ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan
foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab
chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar
kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab
o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan
mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida
aniqlanadi.

Download 1,9 Mb.

1 ... 5 6 7 8 9 10 11 12 ... 20

Download 1,9 Mb.

Pdf ko'rish