|
Ortiqchalikni kamaytirish
|
bet | 8/18 | Sana | 17.02.2024 | Hajmi | 1,73 Mb. | | #158021 |
Bog'liq Biologik ketma-ketlikni taqqoslash. Gomologik ketma-ketliklar
Ushbu dasturda ishlatiladigan algoritm Cédric Notredame tomonidan ishlab chiqilgan va hozirgacha nashr etilmagan. Shuning uchun bu algoritmning tavsifi hozircha mavjud emas.
Cd-hit ketma-ketliklarni klasterlash va ortiqchalikni olib tashlash uchun ochko‘z qo‘shimcha algoritmdan foydalanadi. Ketma-ketliklar avval uzunligi bo‘yicha kamayish bo‘yicha tartiblanadi. Birinchi klasterning vakili a’zosi sifatida eng uzun ketma-ketlik olinadi. Keyin har bir qolgan ketma-ketlik mavjud klasterlarning vakillari bilan taqqoslanadi va agar u ulardan biriga etarlicha o‘xshash bo‘lsa, u klasterga kiritiladi. Aks holda, vakil sifatida o‘sha ketma-ketlik bilan yangi klaster hosil bo‘ladi. Shu tarzda, barcha klasterlar yig‘iladi.
Ko‘p sonli juft tekislashlar tufayli, klasterlash algoritmining eng ko‘p vaqt talab qiluvchi elementi - tekislashlar sonini kamaytirish uchun empirik filtrlar qo‘llaniladi. Bular "qisqa so‘z" filtrlari bo‘lib, ular quyidagi taxminga asoslanadi: ikkita o‘xshash oqsillar bir xil miqdordagi dipeptidlar, tripeptidlar va boshqalarni bo‘lishadi. Shuning uchun bu shartni qanoatlantirmaydigan ketma-ketlik juftlarini tekislash shart emas. "Qisqa so‘z" filtrlari tomonidan qo‘yilgan shartlarni qondirgan ikkita ketma-ketlikni tekislash Smit-Uoterman algoritmlari yordamida amalga oshiriladi, bu ikkita ketma-ketlik uzunligi bo‘yicha bir-biridan juda farq qilsa ham, biologik jihatdan mazmunli mahalliy moslashuvni aniqlashga qodir. Optimal moslashtirishni hisobga olgan holda, ketma-ketlik identifikatori identifikatsiyalar soni va hali mavjud klasterning a’zosi bo‘lmagan ketma-ketlik uzunligi o‘rtasidagi nisbat sifatida hisoblanadi. Klasterga yangi ketma-ketlikni kiritish uchun oshib ketishi kerak bo‘lgan identifikatsiya chegarasi foydalanuvchi tomonidan beriladi.
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan. Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma- ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir
keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa, istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida aniqlanadi.
Ushbu dastur foydalanuvchini to‘liq klasterlar bilan ta’minlamaydi, aksincha u klaster vakillari ro‘yxatini chiqaradi. Boshqa klaster a’zolari o‘tkazib yuborilgan. Baliqlar ortiqcha bo‘lmagan ma’lumotlar to‘plamini yaratish uchun Sander va Holbohm usulidan foydalanadi. Kirish ma’lumotlar to‘plamining birinchi ketma- ketligi ortiqcha bo‘lmagan chiqish ma’lumotlar to‘plamiga kiritilganidek belgilanadi. Bu klaster vakili ketma-ketligi. Kirish ma’lumotlar to‘plamidagi har bir keyingi ketma-ketlik, agar birinchi ketma-ketlik foydalanuvchi tomonidan belgilangan chegaradan past bo‘lgan juftlik ketma-ketligi identifikatoriga ega bo‘lsa, istisno sifatida belgilanadi. Cheklangan ketma-ketliklar yangi ma’lumotlar to‘plamini hosil qiladi va protsedura barcha ketma-ketliklar klasterlashguncha takrorlanadi. Baliqlar past ketma-ketlik identifikatorida tizimli moslashuv va yuqori ketma-ketlik identifikatsiyasida ketma-ketlikni moslashtirish kombinatsiyasidan foydalanishi mumkin. Strukturaviy hizalamalar Idoralar dasturi yordamida hisoblab chiqiladi, PSI-BLAST esa ketma-ketlikni moslashtirish uchun ishlatiladi. Agar kirish faqat ketma-ketlikni o‘z ichiga olsa, strukturaviy hizalanishlar aniq chetlab o‘tiladi. Ketma-ketlik identifikatori, agar mavjud bo‘lsa, bo‘shliqlar bundan mustasno, barcha tekislangan juftlarga bo‘lingan bir xil juftliklar soni sifatida aniqlanadi.
|
| |