39
ketma-ketlikni murakkabligini baholashga bo‘lgan yagona yondashuv mavjud emas. Har bir usul
qonuniyatlarni aniq turini keltirib chiqarishga qaratilgan. DNK ketma-ketligidagi oddiy
maydonlarni topish uchun “algoritmik axamiyat” usuli qo‘llanilgan, u eng oz kodlaydigan
uzunlikni baholashga asoslangan.Ma’lumotni oddiyligini baholash dasturi ishlab chiqilgan, u
qisqa takrorlanishlarni klasterizatsiya qilish bo‘yicha olib borilgan o‘lchovlardir. Ketma-ketlikni
keltirib chiqarish uchun zarur bo‘lgan nusxalash operatsiyalarini past soni ko‘rinishidagi Lempel
va Ziv bo‘yicha ma’lumot keltirib chiqarishning murakkabligini baholash katta qiziqishga sabab
bo‘lgan. Bunday operatsion choralar DNK ketma-ketliklariga qaratilgan bo‘lib, Gusev V.D.
tomonidan taklif qilingan edi. Biologik nuqtai nazardan ma’lumotlarni
siqishning texnik
imkoniyatlaridan
tashqari,
ketma-ketlikni
qismlarga
bo‘linib ketishi muolajalarini
murakkabligini hisoblash bilan bog‘liq bo‘lgan operatsiyalar muhimdir. DNK ketma-ketliklarini
siqish uchun Lempel va Ziv algoritmi GenCompress dasturida amalga oshirilgan. DNK ketma-
ketliklarini murakkabligining yon tomondan ko‘rinishiini qurishning Lempel-Ziv bo‘yicha
baholashga
asoslangan
usuli
Internet
dasturda
[Complexity
Profile
Builder"]
[http://wwwmgs.bionet.nsc.ru/mgs/programs/gc net/] [Babenko et al, 1999]. amalga oshirilgan.
Bu algoritmning dasturiy amalga oshishini kamchiliklariga quyidagilar kiradi: ketma-ketlikning
o‘lchami cheklangan, hisoblar eng qulay bajarilmaydi, to‘g‘ri to‘rtburchakli algoritm yordamida
amalga oshiriladi. "Complexity Profile Builder" dasturi murakkab parchalanishni tahlil qilmaydi
va ketma-ketlik maydonlari uchun murakkablik qiymatlaridagi farqlarni axamiyatini statistik
baholamaydi. Ma’lumotlarni murakkabligini tahlil qilishni kengaytirilgan imkoniyatlariga ega
bo‘lgan Internet tarmoqli dasturiy mahsulot ishlab chiqish dolzarb vazifaga aylandi.
YUqorida
qayd etilganidek, ma’lumotning murakkabligi turli usullarda aniqlanishi mumkin. Bu usullar
murakkablikning algoritmik baholariga yoki SHennon entropiyasining baholariga asoslangan.
Genetik ketma-ketliklar so‘zlarni turli maydonlarda bir xil bo‘lmagan takrorlanishiga ega,
shuning uchun ma’lumot murakkabligini belgisi tabiiy holdir. Bunday ifoda kombinatorli
murakkablikka xosdir. U 1990 yilda lingvistik murakkablik nomi
ostida kiritilgan va ilmiy
ishlarda nukleosomlarni va promotorlarni shakllantirishni namunalarini o‘rganish uchun
qo‘llanilgan. Lingvistik murakkablik miqdoriy jixatdan so‘zlar sonini xuddi shu uzunlikdagi
bo‘lishi mumkin bo‘lgan barcha so‘zlarni yuqori soniga nisbatiga aytiladi. Lingvistik
murakkablik qiymatlari [0;1] intervalda ushlab turiladi. Lingvistik murakkablikni taqsimlanishi
prokariot genlarini transkripsiyasi boshlanishining 5' va 3' maydonlari
uchun kodlanmaydigan
qismidan kodlanadiganga o‘tib turadi va aksincha. Bu usul so‘zlarni uchrash extimolini
ko‘rsatadi, lekin ularni takrorlanishini va to‘planishini aniqlash uchun mo‘ljallanmagan. Genomli
ketma-ketliklarni tuzilmaviy tashkil topishini o‘rganishga nukleotidlarning taqsimlanish
davriyligini tahlili, ma’lumotdagi bir xil belgilari o‘rtasidagi masofalarni aniqlashlar kiradi.
Ketma-ketliklarni davriyligini tahlil qilishning klassik usuli Fure qayta o‘zgartirishidir.
40
Matematik ilovalarda Fure sonlar va qatorlarning ketma-ketligini tahlil qilish uchun qo‘llaniladi.
SHuning uchun Fure qayta o‘zgartirishini standart texnikasini qo‘llashdan oldin, DNK yoki
oqsillarni belgili ketma-ketligini sonliga qayta kodlash lozim. Fure-tahlili yordamida ekzonlar va
intronlarning inson DNKsi ketma-ketligidagi davriy tuzilishlarini farqlari o‘rganildi. [Makeev va
boshq., 1996]. Faqat 3 aminokislota qoldig‘i davrga ega bo‘lgan davriylik kodlaydigan DNKning
maydonlarini xarakterli bo‘lagidir. Ba’zi ishlarda [Lobzin i CHechetkin, 2000; Chechetkin and
Lobzin, 1998] bakteriofagning PHIX174 genomli ketma−ketligi uchun spektr ma’lumotlari
keltirilgan. Bakteriofag genomida 3 davriylik borligi ko‘rsatilgan,
deyarli barcha ketma-ketlik
oqsillarni kodlaydi. Furening sonli ketma-ketlik uchun umumiy spektri individual spektrlarning
yig‘indisi sifatida ifodalanadi. Furening sonli ketma-ketliklar uchun umumiy spektri individual
spektrlarning yig‘indisi sifatida aniqlangan. Kodlaydigan (95%) va kodlanmaydigan ketma-
ketliklarni (90%) aniq chegarasi ko‘rsatib berildi. Olingan genom maydonlar uchun Fure tahlili
qilingan (Stein and Bina, 1999) bo‘lib, unga ko‘ra tartibli tuzilishga ega nukleosomlarni keng
joylari borligi aniqlangan. Spektrda yuqori cho‘qqisi borligi ko‘rsatilgan (360−400 aminokislota
qoldig‘i). Bu nukleosomli DNKning ikiklamchi o‘lchami bilan bog‘liq. Fure qayta tuzilish usuli
oqsillardagi davriylikni aniqlash uchun ham qo‘llanilgan. Aminokislotali ketma-ketliklarni
[Orengo et al, 1997] SATN ma’lumotlar bazasi ham tahlil qilingan edi.
TIM-barrel oqsillar
guruhi misolida molekula tuzilishi bilan ketma-ketliklardagi davriy signallar o‘rtasidagi
bog‘lanish tasdiqlangan. Bu esa Fure tahlili turli xildagi molekulyar genetik omillar bilan
bog‘langan davriylikni aniqlashga yordam beradi.