21
Ortiqchalikni kamaytirish
Ushbu dasturda ishlatiladigan algoritm Cédric
Notredame tomonidan ishlab
chiqilgan va hozirgacha nashr etilmagan. Shuning uchun bu algoritmning tavsifi
hozircha mavjud emas.
Cd-hit ketma-ketliklarni klasterlash va ortiqchalikni olib tashlash uchun
ochko‘z qo‘shimcha algoritmdan foydalanadi. Ketma-ketliklar avval uzunligi
bo‘yicha kamayish bo‘yicha tartiblanadi. Birinchi klasterning vakili a’zosi sifatida
eng uzun ketma-ketlik olinadi. Keyin har bir
qolgan ketma-ketlik mavjud
klasterlarning vakillari bilan taqqoslanadi va agar u ulardan biriga etarlicha o‘xshash
bo‘lsa, u klasterga kiritiladi. Aks holda, vakil sifatida o‘sha ketma-ketlik bilan yangi
klaster hosil bo‘ladi. Shu tarzda, barcha klasterlar yig‘iladi.
Ko‘p sonli juft tekislashlar tufayli, klasterlash algoritmining eng ko‘p vaqt talab
qiluvchi elementi - tekislashlar sonini kamaytirish uchun empirik filtrlar
qo‘llaniladi. Bular "qisqa so‘z" filtrlari bo‘lib, ular quyidagi taxminga asoslanadi:
ikkita o‘xshash oqsillar bir xil miqdordagi dipeptidlar, tripeptidlar va boshqalarni
bo‘lishadi. Shuning uchun bu shartni qanoatlantirmaydigan
ketma-ketlik juftlarini
tekislash shart emas. "Qisqa so‘z" filtrlari tomonidan qo‘yilgan shartlarni qondirgan
ikkita ketma-ketlikni tekislash Smit-Uoterman algoritmlari yordamida amalga
oshiriladi, bu ikkita ketma-ketlik uzunligi bo‘yicha bir-biridan juda farq qilsa ham,
biologik jihatdan mazmunli mahalliy moslashuvni aniqlashga qodir. Optimal
moslashtirishni hisobga olgan holda, ketma-ketlik identifikatori identifikatsiyalar
soni va hali mavjud klasterning a’zosi bo‘lmagan ketma-ketlik uzunligi o‘rtasidagi
nisbat sifatida hisoblanadi. Klasterga yangi ketma-ketlikni
kiritish uchun oshib
ketishi kerak bo‘lgan identifikatsiya chegarasi foydalanuvchi tomonidan beriladi.
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u
klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan.
Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va
Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma-
ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek
belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir
22
keyingi
ketma-ketlik, agar birinchi ketma-ketlik
foydalanuvchi tomonidan
belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa,
istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar
to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha
takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori
ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan
foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab
chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar
kirish faqat ketma-ketlikni o‘z
ichiga olsa, strukturaviy
hizalanishlar aniq chetlab
o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan
mustasno, barcha tekislangan juftlarga bo‘lingan bir xil
juftliklar soni sifatida
aniqlanadi.
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u
klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan.
Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va
Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma-
ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek
belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir
keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan
belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa,
istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar
to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha
takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori
ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan
foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab
chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar
kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab
o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan
mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida
aniqlanadi.