|
Tabiiy Fanlar Fakulteti Biologiya yo’nalishi 22. 59-guruh Talabasi Ortiqov Samandarning Genetika va Genomika asoslari fanidan "Genomikada qo’llaniladigan bioinformatik dasturlar" bo’yicha tayyorlagan referat
|
bet | 2/3 | Sana | 14.05.2024 | Hajmi | 159,08 Kb. | | #233762 | Turi | Referat |
Bog'liq GENOMIKA BIOINformatik dastur genoogleInvert indekslari.
Genoogle vektorlardan teskari indekslar ma'lumotlar tuzilmalari sifatida foydalanadi. Asosiy vektorning o'lchami mumkin bo'lgan pastki ketma-ketliklarning miqdori: DNK kabi alifbo 4 ta harfdan iborat bo'lib, 4n kichik ketma-ketliklar bo'lishi mumkin, ular belgilangan pastki ketma-ketlik uzunligi n bo'lib, teskari indeksli 4n yozuvga ega. Har bir kichik ketma-ketlik vektorining o'lchami ushbu kichik ketma-ketlikning ma'lumotlardagi miqdoriga qarab o'zgaradi. Har bir kichik ketma-ketlik hodisasi shakllanishni saqlash uchun 4 baytdan iborat ikkita butun sondan foydalanadi: Bir butun son ketma-ketlik identifikatorini saqlash uchun, ikkinchisi esa ketma-ketlikni saqlash uchun ishlatiladi.. Integer pozitsiyani ketma-ketlikda saqlash uchun ishlatiladi. Teskari indeks 4 dan foydalanadi. Baytlarni ketma-ketlik identifikatoriga va undan ko'p 4 tasini ushbu ketma-ketlikdagi pozitsiyasiga aylantirib, taxminan 4,25 milliard (232) ketma-ketlikni indekslash mumkin va ularning har biri ushbu uzunlikka ega bo'lib, mavjud xotira miqdorining asosiy chegarasi, ketma-ketliklar va ularning o'lchamlari hisoblanadi.
1-rasm. Sub-sekvensning teskari indeks tuzilishi.
GENOOGLE: SHUNDAY DNK ketma-ketliklari uchun indekslangan va parallel qidiruv mexanizmi teskari indeksni saqlash uchun. 18 ta asosli uzunlikdagi niqoblardan foydalansangiz, 222 ta bo'ladi millionlab pastki ketma-ketliklar va teskari indeks uchun 1,759 megabayt kerak bo'ladi, natijada zarur bo'lgan umumiy xotiraning 30% daromadiga. Uni teskari indekslarni yaratish uchun saralashga asoslangan usul [26] va teskari indeks va formatlangan ma'lumotlardan foydalaniladi bank diskda saqlanadi. Genoogle ishga tushirish vaqtida butun teskari indeks o'qiladi va asosiy xotiraga yuklanadi, ma'lumotlar banki meta-ma'lumotlari,fayl ofset kabi, asosiy xotiraga ham yuklanadi., Ketma-ketlik ma'lumotlari kerak bo'lganda diskdan o'qiladi.
Qidiruv jarayoni. Shundan so'ng, teskari indeks va formatlardagi meta ma'lumotlar banki asosiy xotiraga yuklanadi, Genoogle qidiruvlarni bajarishga tayyor bo’ladi.
Qidiruv jarayoni 7 bosqichga bo'lingan:
• Kirish ketma-ketligini qayta ishlash;
• O'xshash kichik ketma-ketliklarni indekslash va HSPlarni qurish;
• HSPlarni kengaytirish va birlashtirish;
• Bir-biriga o'xshash HSPlarni birlashtirish;
• Yuqori ball to'plagan HSPlarni tanlash;
• Tanlangan HSPlarni mahalliy moslashtirish;
• Eng yaxshi moslamalarni tanlash va ularning ko'rgazmasi.
Kirish ketma-ketligini qayta ishlash birinchi navbatda kirish ketma-ketligining har bir qo'shilgan pastki ketma-ketligida niqobni qo'llaydi va natijada olingan pastki ketma-ketlikni ikkilik qatorga kodlaydi. Genoogle tomonidan ishlatiladigan vakillik. Kirish ketma-ketligini qayta ishlash 2-rasmda ko'rsatilgan. Kirish pastki ketma-ketliklar ikkilik ma'lumotlar sifatida butun songa kodlanganligi sababli, bu mumkin to'g'ridan-to'g'ri ushbu ma'lumotlardan pastki ketma-ketlik qiymatini olish uchun. Chunki qat'iy indeksdagi pastki ketma-ketlik pozitsiyasi o'z qiymati bo'lib, u indeks qidirishni aylantiradi. Jarayon sodda va to'g'ridan-to'g'ri.
2-Rasm. Kirish ketma-ketligini qayta ishlash jarayoni
Kirish ketma-ketligidan har bir niqoblangan va kodlangan pastki ketma-ketlik uchun uning kodlangan qiymati teskari indeksdan shunga ega bo'lgan barcha joylardan olinadi ma'lumotlar banki ketma-ketligidagi pastki ketma-ketlik. Qabul qilingan ma'lumotlar saqlanadi massivlar massiviga, bunda har bir pozitsiya ma'lumotlar banki ketma-ketligini ifodalaydi. Agar Ikki yoki undan ortiq olingan ma'lumotlar belgilangan parametrdan yaqinroq bo'lsa, ular bitta olingan ma'lumotga birlashtiriladi. Ushbu ma'lumotlar ular tomonidan filtrlanadi uzunligi, qolganlari esa High Scoring Pairs (HSP) deb ataladi. HSP beshta ma'lumotga ega bo'ling: Kirish ketma-ketligidagi dastlabki va yakuniy pozitsiyalar ma'lumotlar banki ketma-ketligi va HSP uzunligini oladigan bu maydonning uzunligi ma'lumotlar banki va kirish ketma-ketligiga nisbatan va kichikroq qiymatni oladi. Indekslarni qidirish bosqichidan so'ng, joylashgan HSPlar ikkalasiga ham kengaytiriladi ularning uzunligini kengaytirishga harakat qilish uchun ko'rsatmalar. Kengaytma bosqichida ikki yoki undan ko'p yopiq bo'lgan HSPlar bir-birining ustiga chiqishi mumkin, natijada takroriy natijalar paydo bo'ladi. Demak, u uzaytirish bosqichidan so'ng HSPlar bir-biriga o'xshash hududlarga ega bo'lsa va tekshirilgach, ular bitta yangi HSPga birlashtiriladi.
3-Rasm. Teskari holatdagi indeksidan pastki ketma-ketlikni mahalliylashtirish ma'lumotlarini olish.
|
|
Bosh sahifa
Aloqalar
Bosh sahifa
Tabiiy Fanlar Fakulteti Biologiya yo’nalishi 22. 59-guruh Talabasi Ortiqov Samandarning Genetika va Genomika asoslari fanidan "Genomikada qo’llaniladigan bioinformatik dasturlar" bo’yicha tayyorlagan referat
|