|
II BOB. PDB - OQSILLAR KETMA-KETLIGI MA’LUMOTLAR BAZASI VA DASTURLARI
|
bet | 5/18 | Sana | 17.02.2024 | Hajmi | 1,73 Mb. | | #158021 |
Bog'liq Biologik ketma-ketlikni taqqoslash. Gomologik ketma-ketliklar II BOB. PDB - OQSILLAR KETMA-KETLIGI MA’LUMOTLAR BAZASI VA DASTURLARI
Ortiqcha bo‘lmagan oqsil ma’lumotlar to‘plami bioinformatikada katta ahamiyatga ega. Bunday ma’lumotlar to‘plamini yaratish ma’lum o‘xshashlik chegaralaridan oshib ketadigan oqsil ketma-ketligini olib tashlashni anglatadi. "Oddiylikni kamaytirish", "cd-hit", "Baliqlar", "BlastClust" va "SkipRedundant" kabi bir nechta dasturlar mavjud. Bu erda biz e’tibor qaratadigan masala, turli dasturlar tomonidan ishlab chiqarilgan ortiqcha bo‘lmagan ma’lumotlar to‘plamining bir-biriga qanchalik o‘xshashligi. UniProt ma’lumotlar bazasining kichik to‘plamlari yordamida ushbu dasturlarning xususiyatlari va natijalarini tizimli taqqoslash amalga oshirildi va bu erda tasvirlangan. Natijalar bir xil boshlangʻich maʼlumotlar toʻplami bilan taʼminlangan bir xil dastur bilan olingan, lekin identifikatsiya chegarasining har xil foizi bilan olingan ortiqcha boʻlmagan maʼlumotlar toʻplamlari oʻrtasidagi oʻxshashlikning yuqori darajasini va bir xil boshlangʻich maʼlumotlar toʻplami bilan oziqlangan turli dasturlar bilan olingan natijalar oʻrtasidagi oʻrtacha oʻxshashlikni koʻrsatadi. identifikatsiya chegarasining foizi. Shuni yodda tutishimiz kerakki, ba’zi farqlar paydo bo‘lishi mumkin va bir nechta kompyuter ilovalaridan foydalanish tavsiya etiladi [5].
Proteinlar ketma-ketligi ma’lumotlar bazalari juda ortiqcha va ularning ortiqchaligi turli xil tadqiqotlarda olib tashlanishi kerak. Ma’lumotlar to‘plamidagi ortiqchalik bir vaqtning o‘zida bir nechta o‘xshash ma’lumotlar mavjud bo‘lganda yuzaga keladi. Bioinformatikada ketma-ketliklar to‘plamidagi ortiqchalik bir xil ma’lumotlar to‘plamida bir yoki bir nechta o‘xshash/homolog ketma-ketliklar mavjud bo‘lganda yuzaga keladi. Muayyan tahlillarga o‘xshash ketma-ketliklarni kiritish istalmagan noto‘g‘ri qarashlarni keltirib chiqaradi. Bu, ayniqsa, ma’lumotlardan o‘rtacha qiymatlar yoki tendentsiyalarni olish kerak bo‘lganda sodir bo‘ladi, masalan, o‘rtacha aminokislota tarkibi. Yana bir muhim masala shundaki, UniProt kabi biologik ma’lumotlar bazalari astronomik tezlikda o‘sib bormoqda va
ularning ko‘pligi. Natijada, apparatga bo‘lgan talablar (CPU va xotira) tobora qimmatlashib boradi va ortiqcha miqdorni kamaytirish hisoblash xarajatlarini ham kamaytiradi [10].
Ortiqchalikni olib tashlash uchun turli xil kompyuter dasturlari mavjud. Ular turli xil tekislash usullaridan (global yoki mahalliy moslashtirish) va klasterlash algoritmlaridan foydalanadilar. Ushbu ishda bir nechta kompyuter dasturlari tizimli ravishda taqqoslanadi. Ularning natijalarini umumiy baholashdan tashqari, asosiy tashvish turli usullarning natijalari qanchalik o‘xshash yoki farq qiladi. Turli metodologiyalardan foydalanadigan dasturlardan foydalanishda ma’lum farqlar kuzatildi. Bu ortiqcha bo‘lmagan ketma-ketlik ma’lumotlar to‘plamini talab qiladigan har qanday tadqiqot ongli ravishda olib borilishi kerakligini ko‘rsatadi. Iloji bo‘lsa, tadqiqot turli dasturlardan foydalangan holda olingan bir nechta ortiqcha bo‘lmagan ma’lumotlar to‘plamidan foydalangan holda o‘tkazilishi afzalroqdir.
|
| |