|
INSDC nukleotidlar ketma-ketligi bazasi
|
bet | 3/18 | Sana | 17.02.2024 | Hajmi | 1,73 Mb. | | #158021 |
Bog'liq Biologik ketma-ketlikni taqqoslash. Gomologik ketma-ketliklar
INSDC bir qator asosiy hamkorlik vositalarini ishlab chiqish va texnik xizmat ko‘rsatish orqali ma’lumotlar almashinuvi quvurlarini qo‘llab-quvvatlaydi. Ulardan eng qadimiysi INSDC Feature Table Document bo‘lib, unda funksional izohlash konventsiyalari ham sintaktik, ham semantik darajada tasvirlangan. Odatda-yiliga ikki marta yangilanadi, eng soʻnggi versiyasini quyidagi manzilda topish mumkin: http://www.insdc.org/documents/feature_table.html. Vaqt o‘tishi bilan ushbu spetsifikatsiya INSDCdan tashqarida ma’lumotlarni taqdim etish, almashish va tahlil vositalariga kiritish formati darajasida ham, xususiyat kalitiga asoslangan annotatsiya tizimlari va texnologiyalarini ishlab chiqish uchun boshlang‘ich nuqta sifatida ishlatiladigan bioinformatika standartini aniqladi. va sifatlovchi ta’riflari.
Hamkorlikning ikkinchi asosiy vositasi bu yagona qo‘shilish tizimidir. Qo‘shilish nom maydonini almashish orqali INSDC qo‘shilishlari hamkorlar xizmatlarida universal bo‘lib, so‘rovlar saytidan qat'i nazar, bitta ulanish bir xil ketma-ketlikni qaytaradi.
Uchinchi asosiy hamkorlik vositasi - bu SRA asosidagi ma’lumotlar modeli. SRAda namuna, eksperimental dizayn, kutubxona yaratish va mashina konfiguratsiyasiga oid ma’lumotlarga ega metama’lumotlar bir qator XML hujjatlarida ifodalanadi va almashiladi. Ketma-ket o‘qish, sifat va o‘qishni moslashtirish ma’lumotlari ikkilik ma’lumotlar fayllarida saqlanadi va SRA metama’lumotlar qatlami bilan bog‘lanadi.
Muhim ahamiyatga ega bo‘lgan yana bir hamkorlik quroli INSDC maqom konventsiyasidir (http://www.insdc.org/insdc_status.html), unda INSDC hamkorlari bo‘ylab berilgan yozuvlar uchun barqaror mavjudlik darajasi saqlanadi. Ushbu tizim to‘liq ochiq ma’lumotlar, nashrdan oldin maxfiy saqlangan ma’lumotlar va yangilangan takomillashtirilgan ma’lumotlar mavjud bo‘lganda bostirilgan ma’lumotlar kabi tushunchalarni qo‘llab-quvvatlaydi.
Xalqaro nukleotidlar ketma-ketligi maʼlumotlar bazasi hamkorligi (INSDC; http://www.insdc.org) doirasida global miqyosda keng qamrovli ommaviy nukleotidlar ketma-ketligi olinadi, saqlanadi va taqdim etiladi. Ushbu uzoq muddatli hamkorlikning hamkorlari o‘zlarining ma’lumotlar bazalariga izchil ma’lumotlarni taqdim etishni ta’minlaydigan va butun dunyo bo‘ylab muntazam ma’lumotlar almashinuvini qo‘llab-quvvatlaydigan ma’lumotlar formatlari va konventsiyalarini ta’minlash uchun yaqindan hamkorlik qiladilar. Ma’lumotlarga erkin kirish va jurnal noshirlari bilan aloqalar bo‘yicha aniq belgilangan siyosat va boshqaruv INSDC ma’lumotlar bazalarini ilmiy yozuvlarning asosiy yetkazib beruvchisi va global bioinformatika ma’lumotlar infratuzilmasi uchun asosiy poydevor sifatida joylashtirdi. Ketma-ket ma’lumotlar hajmining o‘sishi INSDC hamkorlari uchun endi ajablantirmasa-da, biz so‘nggi-yillarda guvoh bo‘lgan asosiy fan tomonidan keyingi avlod sekvensiya texnologiyasini qo‘llash o‘sishning bosqichma-bosqich o‘zgarishiga olib keladi va INSDC strategiyasida aniq belgi qo‘yadi. . Ushbu maqolada biz INSDC ni tanishtiramiz, ma’lumotlarning o‘sishi naqshlarini tasvirlaymiz va o‘sishning kuchayishi muammolarini sharhlaymiz [15, 18].
Nukleotidlar ketma-ketligi maʼlumotlar bazasining xalqaro hamkorligi (INSDC; http://www.insdc.org) jamoat mulki maʼlumotlarini almashish boʻyicha eng mashhur global tashabbuslardan biridir. 1980-yillarning boshlarida ketma-ketlik texnikasini qo‘llash natijasida paydo bo‘lgan ketma-ketlik va izohlarning ortib borayotgan hajmlarini qo‘lga kiritish va taqdim etishga bo‘lgan sa’y-harakatlardan kelib chiqqan holda, 1987-yilga kelib, INSDC bugungi kungacha saqlanib qolgan uch partiyaning barqaror a’zoligi bilan shakllandi. Hamkorlik taraflari Yaponiyaning Mishima shahridagi Milliy genetika institutida DNK ma’lumotlar banki (DDBJ) hisoblanadi; Yevropa molekulyar biologiya laboratoriyasining Yevropa bioinformatika instituti (EMBL-EBI) Hinxton, Buyuk Britaniya; va AQShning Merilend shtati, Bethesda shahridagi Milliy Biotexnologiya Axborot Markazi (NCBI). INSDC hamkorlari birgalikda ommaviy nukleotidlar ketma-ketligi va tegishli metama’lumotlarning global to‘plamini taqdim etishga kirishdilar. Qamrov ma’lumotlar spektrini o‘z ichiga oladi, ular xom o‘qishdan tortib yig‘ish va
moslashtirish ma’lumotlari, yig‘ilgan ketma-ketliklarning taqdim etilgan funktsional izohlarigacha. Hamkorlik ostidagi xom ma’lumotlar arxivlari kapillyar elektroforez platformalaridan olingan xom ma’lumotlar uchun Trace Archive va keyingi avlod platformalaridan xom va o‘qilgan moslashtirish ma’lumotlari uchun Sequence Read Archive [SRA, (1)] sifatida tanilgan. Yigʻilgan ketma-ketliklar va izohlar DDBJ (2), Yevropa Nukleotidlar arxivining EMBL-Bank komponenti (3) va NCBI dan GenBank (4) da mavjud. Muntazam ma’lumotlar almashinuvi, standart formatlar va tobora ko‘proq texnologiya almashish hamkorlikda global sinxronlikni ta’minlaydi.
Nihoyat, 2010-yil davomida ma’lumotlar provayderlari va INSDC ma’lumotlar bazasi kuratorlari to‘liq genomlar, transkriptomlar, transkriptomlar va boshqalarni maqsad qilib olgan izchil izlanishlar bilan bog‘liq bo‘lgan yuqori darajadagi ma’lumotlarni jamlaydigan BioProjects ma’lumotlar bazasini yaratishga katta kuch sarflandi. metagenomika loyihalari, maqsadli lokalizatsiya tadqiqotlari va boshqalar. INSDC hamkorlari ushbu tashabbus doirasida ma’lumot to‘plashgan bo‘lsa-da, 2011-yilda kutilayotgan asosiy yangi sxema ma’lumotlarga kirish va qazib olish vositalarini qo‘llab-quvvatlaydi.
INSDC hamkorlari muvofiqlashtirilgan va integratsiyalashgan xizmatlarni yaqindan ishlaydi. Ma’lumot yuboruvchi uchun faqat sheriklardan biriga ketma- ketlik ma’lumotlarini taqdim etish kerak. Ketma-ketliklar bitta nom maydoni bo‘ylab qo‘shiladi, shunday qilib qo‘shilish qidiruvi qaysi hamkor institut qidiruv ob'ektini taqdim etganidan qat'iy nazar bir xil ma’lumotlar mazmunini beradi. Mahalliy talablarni qondirish va INSDC dan tashqari hamkor institut resurslari bilan optimal integratsiyani taklif qilish uchun hamkor institutlarda taqdim etish va taqdim etish vositalari mustaqil ravishda ishlab chiqiladi va saqlanadi. Ushbu vositalarni quyidagi manzillarda topish mumkin: http://www.ddbj.nig.ac.jp/, http://www.ebi.ac.uk/ena/ va http://www.ncbi.nlm.nih.gov/ DDBJ, ENA va NCBI uchun mos ravishda va http://www.insdc.org/ dan havola qilingan.
INSDC ma’lumotlar bazalari tomonidan ma’lumotlarga egalik qilishning aniq tamoyillari ishlab chiqilgan. Muhimi, INSDC ma’lumotlar bazalari egalari emas,
balki ma’lumotlar xostlaridir; kiruvchi ma’lumotlar uchun ma’lum sintaktik va semantik muvofiqlikni tekshirish mavjud bo‘lsa-da, ma’lumotlarga egalik qilish va shuning uchun ilmiy tarkibni tahririyat nazorati asl ma’lumot provayderida qoladi. Bundan tashqari, faqat ma’lumotlar egalari va ularning tasdiqlangan delegatlari o‘z yozuvlarini yangilashlari mumkin. Hamkorlardan biriga taqdim etilgan ma’lumotlar qabul qiluvchi INSDC instituti vositachiligida yangilanadi; ya’ni qabul qiluvchi institut har qanday berilgan yozuv yoki yozuvlar to‘plami bo‘yicha topshiruvchi va INSDC o‘rtasidagi o‘zaro aloqa uchun doimiy javobgarlikni o‘z zimmasiga oladi.
Shubhasiz, bunday tizim xolislikni ta’minlasa-da, ilmiy sifat nazoratini ma’lumotlar provayderlari qo‘liga topshiradi, ular ba’zan uzoq vaqt davomida o‘z yozuvlariga doimiy yangilanishlarni qo‘llab-quvvatlay olmaydilar, odatda diqqat markazida o‘zgarish natijasida. topshiruvchining laboratoriyasi yoki xodimlarning ushbu tadqiqot sohasini tark etishi natijasida. Birlamchi arxiv sifatida INSDC ma’lumotlar provayderlariga imkon qadar kamroq to‘siqlar qo‘yishi muhim, chunki ularning ma’lumotlari va talqinlari ilmiy yozuvning bir qismi sifatida to‘liq tarqatiladi. Shu sababli, INSDC tarkibi tahlilga ma’lumotlar tasmasi sifatida to‘liqlik, puxtalik va pirovardida ishonchlilikning ko‘p darajalarini qamrab oladi. Ushbu muammoni e’tirof etgan holda, INSDC ma’lumotlar bazalarining siyosati sifat, to‘liqlik va puxtalik baholanishi va foydalanuvchilarga turli tahlillar ostida turli INSDC yozuvlariga ishonch bo‘yicha eng yaxshi xulosalar chiqarish imkonini beradigan tizimlarga intilishdir.
Yangi ketma-ketlik tasvirlangan har qanday maqolada maqola mualliflari tomonidan taqdim etilgan ketma-ketliklar bilan bog‘liq bo‘lgan INSDC kirish raqamlari keltirilishi bioinformatikadagi asosiy dogma bo‘lsa-da, bu "majburiy topshirish" tushunchasi passiv tarzda emas, balki sa’y-harakatlar natijasida paydo bo‘lgan. INSDC a’zo institutlari va ochiq ma’lumotlar almashinuvining boshqa tarafdorlari. Ommaviy ma’lumotlarni tarqatish bo‘yicha ilg‘or amaliyotga misol sifatida, INSDC hamkorlari hayot fanlari bo‘yicha yirik jurnallar noshirlarining ushbu tashabbusda doimiy qo‘llab-quvvatlanayotganini e’tirof etadilar.
INSDC ma’lumotlari foydalanuvchilarga ochiq va bepul taqdim etiladi. Ko‘pgina yozuvlar topshirilgandan so‘ng darhol ommaga ochiq bo‘lsa-da, nashr etilishidan oldin maxfiy saqlanganlar asar nashrda taqdim etilishi bilanoq ommaga e’lon qilinadi. Tartibga solish uchun material taqdim etgan inson donorlarining rozilik kelishuvlariga rioya qilish uchun ba’zi yozuvlarga kirish huquqini talab qilish kerak; INSDC institutlari xavfsizlikning tegishli darajalariga erishish uchun tegishli axloqiy organlar va qo‘mitalar bilan tegishli qonunchilik tizimlari ostida ishlaydi.
INSDC uzoq vaqtdan beri tashkil etilgan Xalqaro maslahat qo‘mitasiga ega bo‘lib, u INSDCga rivojlanish va siyosat masalalari bo‘yicha ilmiy va strategik maslahatlar berish bilan shug‘ullanadi (qarang: http://www.insdc.org/advisors.html). Qo‘mita tarkibiga kiruvchi katta olimlar INSDC [http://www.insdc.org/documents/open_letter.txt] himoyachilari sifatida ham muhim rol o‘ynaydi.
2010-yilda INSDC ma’lumotlar bazalari bazalar soni bo‘yicha umumiy hisobda taxminan 3 baravar o‘sdi (1-rasm). Ushbu mutlaq o‘sish ortida yig‘ilgan ketma-ketliklar sonining 19 % ga o‘sishi (164 dan 195 million ketma-ketlikgacha) va SRAda keyingi avlodga asoslangan tajribalar sonining ikki baravardan ko‘proq o‘sishi (taxminan 13 000 dan 13 000 gacha) bor. 31 000). INSDC ma’lumotlar bazalarida ma’lumotlar o‘sishining eng katta komponentiga yangi avlod sekvensiyasining xom ashyosi hissa qo‘shishi ajablanarli bo‘lmasa-da, yig‘ilgan ketma-ketliklarni to‘plash tezligining biroz, ammo barqaror pasayishi aniq. Buning sabablari noaniq bo‘lsa-da, ko‘plab mumkin bo‘lgan tushuntirishlar orasida kamroq to‘liq (an'anaviy ma’noda) genom ketma-ketligi tendentsiyasi va shuning uchun an'anaviy yig‘ilgan ketma-ketlik va funktsional izohlarni ommaga taqdim etish uchun ma’lumotlar generatorlariga ehtiyojning pastligi; Darhaqiqat, yig‘ilgan ketma-ketlik asoslarini taqsimlashdan ko‘rinib turibdiki, butun genom o‘q otishni o‘rganishdan olingan ketma-ketlik yozuvlari endi yig‘ilgan ketma-ketliklarning tobora muhim tarkibiy qismiga hissa qo‘shmoqda. Qo‘shimcha tushuntirishlar, ehtimol, ketma-ket yig‘ish usullariga kamroq mos keladigan kapillyar elektroforez platformalari bilan solishtirganda, chiqishi haligacha saqlanib qolgan keyingi avlod
sekvensiyalash mashinalari tomonidan ketma-ketlik qobiliyatini to‘yinganligini o‘z ichiga oladi.
|
| |