Mavzu: Katta hajimdagi ma’lumotlarni qayta ishlash texnologiyalari
Reja:
Ma’lumotlar bazalari va ularni ishlab chiqish modellari.
Ma’lumotlar bazasini boshqarish tizimining asosiy vazifalari va xususiyatlari
Katta ma’lumotlarni qayta ishlash texnologiyalari(Big Data)
Inson faoliyatining turli sohalarida katta hajmdagi ma’lumotlarni qayta ishlash va saqlash kompyuterlarni qo‘llashning muhim yo‘nalishlaridan: iqtisodiyot, bank, savdo, transport, tibbiyot, fan va hokazolardan biridir. Mavjud zamonaviy axborot tizimlari juda katta hajmdagi saqlanadigan va qayta ishlanadigan ma’lumotlar, murakkab tashkil etilishi, ko‘plab foydalanuvchilarning turli talablarini qondirish zarurati bilan ajralib turadi. Axborot tizimi –bu ma’lumotlarni yig‘ishni,qayta ishlashni va manipulyatsiyasini avtomatlashtirilgan holda amalga oshiradigan va ma’lumotlarni qayta ishlashning texnik vositalarini, dasturiy ta’minot va xizmat ko‘rsatuvchi xodimlarni o‘z ichiga olgan tizimdir.Har qanday axborot tizimining maqsadi–dunyodagi real obyektlar haqidagi ma’lumotlarni qayta ishlash hisoblanadi. Axborot tizimining asosini ma’lumotlar bazasi tashkil etadi. Ma’lumotlar bazasi keng ma’noda –bu har qanday predmet sohasidagi dunyoning aniq obyektlar haqidagi ma’lumotlar to‘plamidir. Ma’lumotlar bazasini yaratish orqali foydalanuvchi turli xil xususiyatlarga ko‘ra ma’lumotni tartibga solishga intiladi va tezlik bilan kerakli xususiyatlarning kombinatsiyasi tanlovini amalga oshiradi. Bunda ma’lumotlar modelini to‘g‘ri tanlash juda muhimdir. Ma’lumotlar modeli –bu dunyoni idrok etishning asosiy toifalarini, uning obyektlari, bog‘lanishlari, xususiyatlari, shuningdek, ularning o‘zaro ta’sirlari bilan ifodalanishining tasviridir.Ma’lumotlar bazasi (MB) ko‘rib chiqilayotgan sohadagi obyektlar holati va ularning o‘zaro munosabatlarini aks ettiruvchi ma’lumotlar to‘plamidir. Ma’lumotlar bazasidagi ma’lumotlar tartibli ravishda saqlanadi. Shunday qilib, daftarchada barcha yozuvlar alifbo tartibida, kutubxona katalogida esa alifbobo‘yicha (alifbo katalogi) yoki sohaga (mavzu katalogi) muvofiq tartiblangan.Ma’lumotlar bazasini yaratishga, unda saqlanadigan ma’lumot-larni yangilashga, ko‘rish va izlashga va unga qulay kirish imkoniyatini yaratishga imkon beradigan dasturlar tizimi ma’lumotlar bazasini boshqarish tizimi deb ataladi. Zamonaviy ma’lumotlar bazalariga va binobarin, (MBBT) ga quyidagi asosiy talablar qo‘yiladi:
1. Yuqori harakatchanlik (so‘rovga qisqa javob vaqti).Javob vaqti -ma’lumotlar bazasiga so‘rov yuborilgan paytdan boshlab ma’lumotlarni qabul qilinishigacha bo‘lgan vaqt oralig‘i. Shunga o‘xshash yana bir atama bu -“Kirish Vaqti”hisoblanadi. Kirish vaqti -buyrug‘berilishi va ma’lumotlarni qabul qilish o‘rtasidagi vaqt oralig‘i. Kirish deganda ma’lumotlarni qidirish, o‘qish yoki yozish operatsiyasi tushuniladi. Ma’lumotlarni yozish, o‘chirish va o‘zgartirish operatsiyalari ko‘pincha yangilanish operatsiyasi deb nomlanadi.
2. Ma’lumotlar yangilanishining osonligi.
3. Ma’lumotlarning mustaqil bo‘lishi.
4. Ko‘p foydalanuvchilar o‘rtasidagi ma’lumot almashinuvi.
5. Ma’lumotlar xavfsizligi -ma’lumotlar sirini qasddan yoki bilmasdan turib buzishdan, yo‘q qilishdan himoya qilish.
6. Ma’lumotlar bazalarini qurish va ishlashini standartlashtirish (MBBT).
7. Tegishli mavzu sohasidagi ma’lumotlarni ko‘rsatishning yetarliligi.
8. Foydalanuvchi uchun do‘stona interfeys.
Bir-biriga qarama-qarshi bo‘lgan dastlabki ikki talab eng muhimlardan hisoblanadi: Yuqori harakatchanlikma’lumotlar bazasi tuzilishini soddalashtirishni talab qiladi. Bu esa o‘z navbatida ma’lumotlarni yangilash tartibini murakkablashtiradi va ularning ortiqcha hajmini oshiradi.Ma’lumotlarning mustaqil bo‘lishi -foydalanuvchi qarashlarini o‘zgartirmasdan ma’lumotlar bazasining mantiqiy va fizik tuzilishini o‘zgartirish qobiliyati. Ma’lumotlarning mustaqilligi ma’lumotlarni saqlash, dasturiy ta’minot va apparat vositalarining xususiyatlariga qarab o‘zgar-maslikni anglatadi. Ma’lumotlarga kirish strategiyasini va asl ma’lumotlarning tuzilishini o‘zgartirganda, MB tarkibida minimal o‘zgarishlarni ta’minlaydi. Bunga loyihalashtirish davrida barcha o‘zgarishlarni konseptual va mantiqiy bosqichlariga minimal o‘zgartirishlar bilan “siljitish”orqali erishiladi. Ma’lumotlar xavfsizligi yaxlitlik va himoyaviylikni o‘z ichiga oladi.Ma’lumotlarning yaxlitligi -saqlanadigan ma’lumotlarning texnik nosozliklar, tizim xatolari va foydalanuvchilarning noto‘g‘ri xatti-harakatlari bilan bog‘liq bo‘lgan faoliyatiga qarshi chidamliligi.O‘z navbatida u:
1. noto‘g‘ri kiritilgan ma’lumotlar yoki bir xil ma’lumot bo‘yicha ikkita bir xil yozuvlarning yo‘qligini;
2. ma’lumotlar bazasini yangilashda xatolardan himoya qilishni;
3. turli jadvallarning tegishli ma’lumotlarini o‘chirib bo‘lmasligini;
4. ko‘p foydalanuvchi rejimida va ma’lumotlar bazalarida ishlashda ma’lumotlarning buzilmasligini;
5. uskunalar ishlamay qolganda ma’lumotlar xavfsizligini (ma’lumotlarni qayta tiklash) nazarda tutadi.
Butunlik butunlikni ta’minlovchi vositalar –trigger bilan ta’minlanadi –ma’lum sharoitlarda ishlaydigan maxsus dastur-ilovalar. Ma’lumotlarni ruxsatsiz kirishdan himoya qilish, ma’lumot-larga kirishni cheklashni o‘z ichiga oladi va ularga quyidagicha erishiladi:
1. parol tizimini joriy etish;
2. ma’lumotlar bazasi ma’muridan (admin) ruxsat olish (MBM);
3. ma’lumotlarga kirish uchun BA tomonidan taqiq;
4. Jadvalturlarinishakllantirish
So‘nggi uchta jarayon StructuredQuery Language –SQLda osonlik bilan amalga oshirilib, ko‘pincha SQL2 deb ham nomlanadi.Standartlashtirish MBBT avlodlarining uzluksizligini ta’minlab, bir avlod MBlarning boshqa ma’lumotlar modellari bilan o‘zaro faoliyatini soddalashtiradi. Standartlashtirish (ANSI / SPARC) ko‘p jihatdan MBBT foydalanuvchi interfeysi va SQL tili nuqtai nazaridan amalga oshiriladi. Bu SQL tili va Open Data Base Connection (ODBC) ilovasi yordamida ham turli relyatsion MBBTlarning o‘zaro ta’sirini muvaffaqiyatli hal qilishga imkon beradi. Bunday holda, ma’lumotlarga lokal va masofaviy kirish amalga oshirilishi mumkin. (mijoz / server texnologiyasi yoki tarmoq varianti).Ma’lumotlar bazasini yaratish orqali biz kerakli ma’lumotlarni mezonlarga muvofiq tartibga solishga intilamiz. Bu ishni faqat ma’lumotlar tartiblangan taqdirda amalga oshirish mumkin. Strukturalash -bu ma’lumotlar qanday taqdim etilishi bo‘yicha kelishuvlar to‘plami. Ma’lumotlarni turli yo‘llar bilan tuzish mumkin. Tuzilishiga qarab, ma’lumotlar bazasining iyerarxik, tarmoq, relyatsion, obyektga yo‘naltirilgan va gibrid modellari mavjud. Bugungi kunda eng ommalashgani -bu relyatsion bo‘lib, shuning uchun biz qolganlari haqida uncha gapirmaymiz. Ma’lumotlar bazasining ierarxik tuzilishi. Bu ma’lumotni taqdim etish uchun daraxtsimon tuzilishdir. Uning o‘ziga xos xususiyati shundaki, quyi darajadagi har bir tugun yuqori darajadagi bitta tugun bilan aloqaga ega. Masalan, “Institut”ma’lumotlar bazasining ierarxik tuzilishining bir qismini ko‘rib chiqamiz (8.1-rasm).Strukturadan ko‘rinib turibdiki, bitta kafedrada bir nechta o‘qituvchilar faoliyat olib borishi mumkin. Ushbu bog‘lanishlar “birga ko‘p”deb nomlanadi (bir kafedra –ko‘p o‘qituvchilar). Ammo agar biz ushbu tuzilishga talabalar guruhini(8.2-rasm) qo‘shmoqchi bo‘lsak, unda biz “ko‘pga-ko‘p”munosabatlarga murojaat qilamiz: (bir o‘qituvchi ko‘plab guruhlar bilan va o‘z navbatida bitta guruh ko‘plab o‘qituvchilardan bilim o‘rganishi mumkin), ierarxik tuzilishda bunday aloqa bo‘lishi mumkin emas (chunki aloqa faqat yuqori darajadagi bitta tugun bilan bo‘lishi mumkin).
Ushbu ma’lumotlar bazasi tuzilishining asosiy kamchiligi ham shundadir.Ma’lumotlar bazasining tarmoq tuzilishi. Aslida, bu ierarxik tuzilmaning kengaytmasi. Hammasi huddi shunday bo‘lib, “ko‘pga-ko‘p”bog‘lanishi mavjud bo‘ladi. Ma’lumotlar bazasining tarmoq tuzilishi bizning misolimizga guruhlarni qo‘shishga imkon beradi. Tarmoq modelining kamchiligi jiddiy dasturlarni ishlab chiqishning murakkabligidir. Ma’lumotlar bazasining relyatsion tuzilishi. Barcha ma’lumotlar qator va ustunlarga bo‘lingan, ma’lumotlar kesishgan joyda joylashgan oddiy jadvallar ko‘rinishida taqdim etiladi. Obyektga yo‘naltirilgan va gibrid ma’lumotlar bazalari. Obyektga yo‘naltirilgan ma’lumotlar bazalarida ma’lumotlar obyektsifatida saqlanadi va bu juda qulaydir. Ammo bugungi kunda bunday ma’lumotlar bazalari hali uncha keng tarqalganmagan, chunki u ishlash jihatidan relyatsionga qaraganda pastroq.Gibrid ma’lumotlar bazalari relyatsion va obyektga yo‘naltirilgan imkoniyatlarni birlashtiradi, shuning uchun ular ko‘pincha obyekt-munosabat deb nomlanadi. Bunday MBBT-ga sakkizinchi versiyadan boshlab Oracle misol bo‘ladi. Shubhasiz, bunday ma’lumotlar bazalari kelajakda rivojlanadi, ammo hozirgacha ustunlik relyatsion tuzilmalarda qolmoqda.Relyatsion ma’lumotlar bazalariRelyatsion ma’lumotlar bazalari jadvallardan iborat. Har bir jadval ustunlardan iborat (ular maydonlar yoki atributlar deb nomlanadi) va qator (ular yozuvlar yoki kortejlar deb nomlanadi). Relyatsion ma’lumotlar bazalaridagi jadvallar bir qator xususiyatlarga ega. Asosiylari quyidagilar:
Jadvalda ikkita bir xil qator bo‘lishi mumkin emas. Matematikada bunday xususiyatga ega jadvallar munosabatlar deb atalib -ingliz tilida RELATION, shuning uchun ham u relyatsion deb nom olgan.
Ustunlar ma’lum bir tartibda joylashtirilgan bo‘lib, ular jadval tuzilganda hosil bo‘ladi. Jadvalda qator bo‘lmasa ham, lekin kamida bitta ustun bo‘lishi kerak.
Har bir ustunning o‘ziga xos nomi bor (jadval chegarasida) va bir ustundagi barcha qiymatlar bir xil turga mansub (raqam, matn, sana ...).
Har bir ustun va qator kesishgan joyda faqat atomarqiymati bo‘lishi mumkin (qiymatlar guruhidan iborat bo‘lmagan bitta qiymat). Ushbu shartni qondiradigan jadvallar normallashtirilgandeb nomlanadi.Barchasi namunada namoyon bo‘ladi. Aytaylik, forum uchun ma’lumotlar bazasini yaratmoqchimiz. Forumda mavzularni yaratadigan va ushbu mavzularda xabarlarni joylashtiradigan foydalanuvchilar ro‘yxatdan o‘tgan. Ushbu ma’lumotlar MBda saqlanishi kerak.Nazariy jihatdan (qog‘ozda) biz bularning barchasini bitta jadvalda joylashtirishimiz mumkin, masalan:
Bizning “foydalanuvchilar”jadvali barcha shartlarga javob beradi. Mavzular va xabarlar esa yo‘q. Axir jadvalda ikkita bir xil satr bo‘lishi mumkin emas. Foydalanuvchi ikkita bir xil xabar qoldirmasligiga kafolat qayerda, masalan:
Ammo bu atomarxususiyatiga zid keladi (bitta katakdagi bitta qiymat) va biz “Темы и Сообщения” ustunlarida cheksiz ko‘p
qiymatlarni qabul qilamiz. Bujadvalni 3 ga bo‘lishni anglatadi: Foydalanuvchilar, mavzular va xabarlar
Bizning “foydalanuvchilar”jadvali barcha shartlarga javob beradi. Mavzular va xabarlar esa yo‘q. Axir jadvalda ikkita bir xil satr bo‘lishi mumkin emas. Foydalanuvchi ikkita bir xil xabar qoldirmasligiga kafolat qayerda, masalan:
Bundan tashqari, biz har bir xabarning qaysidir mavzuga tegishli ekanini bilamiz. Jadvallarimizdan qanday qilib bilib olishingiz mumkin? Hech qanaqasiga. Ushbu muammolarni hal qilish uchun relyatsion ma’lumotlar bazalarida kalit mavjud.Birlamchi kalit(qisqartmasi РК-primary key) -qiymatlari barcha qatorlarda turlicha bo‘lgan ustun. Birlamchi kalitlar mantiqiy (tabiiy) va surrogat (sun’iy) bo‘lishi mumkin. Shunday qilib, bizning jadvalimiz foydalanuvchilari uchun birlamchi kalit elektron pochta ustuni bo‘lishi mumkin (nazariy jihatdan bir xil elektron pochtaga ega ikkita foydalanuvchi bo‘lishi mumkin emas). Amalda, surrogat kalitlardan foydalanish yaxshiroqdir. Bundan tashqari, birlamchi kalitlarni o‘zgartirish mumkin emas. Lekin foydalanuvchining elektron pochtasi o‘zgartirilsa nima bo‘ladi? Surrogat kaliti ma’lumotlar bazasidagi qo‘shimcha maydonga ega. Odatda, bu yozuvning tartib raqami (siz ularni o‘zingizning xohishingizga ko‘ra o‘zgartirishingiz mumkin va ular noyob ekanligiga ishonch hosil qiling). Keling, jadvalimizga birlamchi kalit maydonlarni kiritamiz:
2.Ma’lumotlar bazasini boshqarish tizimining asosiy vazifalari va xususiyatlari
Ma’lumotlar bazasini boshqarish tizimi (MBBT) — ma’lumotlar bazalarini yaratish, ularni saqlash va kerakli ma’lumotlarni qidirishga mo‘ljallangan dasturiy ta’minotdir. Aniqrog‘i, MBBT funksiyalarining soniga quyidagilarni kiritishimiz mumkin:
1. Tashqi xotira ma’lumotlarini to‘g‘ridan-to‘g‘ri boshqarish. Ushbu funksiya to‘g‘ridan-to‘g‘ri ma’lumotlar bazasiga kiritilgan ma’lumotlarni saqlash uchun ham, xizmat ko‘rsatish uchun ham ishlatiladi. Masalan, ba’zi hollarda ma’lumotlarga kirish vaqtini qisqartirish zarur bo‘lgan paytlarda (odatda shu maqsadlarda indekslardan) foydalaniladi. MBBT amallarining ba’zilarida mavjud fayl tizimlarining imkoniyatlaridan faol foydalaniladi. Boshqalarida esa tashqi xotira qurilmalari darajasiga qadar ish olib boriladi. Shuni ta’kidlash kerakki, rivojlangan MBBT foydalanuvchilari fayl tizimidan foydalanganligi yoki foydalanmaganligini bilishlari shart emas. Xususan, MBBT o‘z obyektlarini nomlash tizimiga ega.
2. Operativ xotiraning buferini boshqarish. MBBT odatda katta hajmdagi ma’lumotlar bazasi bilanishlaydi; hech bo‘lmaganda bu
o‘lcham odatda mavjud bo‘lgan operativ xotira hajmidan sezilarli darajada katta bo‘ladi. Biron bir ma’lumot elementiga kirishda tashqi xotiradan foydalanilsa, u holda butun tizim tashqi xotira qurilmasi tezligida ishlaydi. Ushbu tezlikni oshirishning deyarli yagona usuli bu —operativ xotiradagi ma’lumotlarni buferlashdir. Bundan tashqari, agar operatsion tizim butun tizimda buferlashni amalga oshirsa ham (UNIX operatsion tizimi), juda ko‘p ma’lumotlarga ega bo‘lgan ma’lumotlar bazasi uchun bu yetarli bo‘lmaydi.Shuning uchun rivojlangan MBBTlar buferlarni o‘z nizomiga ega buferlar bilan almashtirish imkoniyatiga ega.
3. Tranzaksiyalarni boshqarish.Tranzaksiya —bu MBBT tomonidan ko‘rib chiqiladigan ma’lumotlar bazasi bo‘yichaoperatsiyalarning ketma-ketligidir. Yoki tranzaksiya muvaffaqiyatli amalga oshiriladi va MBBT ma’lumotlar bazasida ushbu operatsiyani tashqi xotirada o‘zgartiradi yoki bu o‘zgarishlarning hech biri ma’lumotlar bazasining holatiga hech qanday ta’sir qilmaydi. Tranzaksiya tushunchasi ma’lumotlar bazasining mantiqiy yaxlitligini saqlash uchun zarurdir. Masalan, kadrlar bo‘limining axborot tizimida, yangi ishchi yollanganda, xodimlar faylida ham, hamda ushbu xodim qabul qilingan bo‘limning faylida ham yangi ma’lumotlar talab qilinadi. Bunday holda, yangi xodimni ishga qabul qilish operatsiyasini bajarishda ma’lumotlar bazasi yaxlitligini buzmaslikning yagona usuli bu XODIMLAR va BO‘LIMLAR fayllaridagi elementar operatsiyalarni bitta operatsiyaga birlashtirishdir.
4. Qaydlash. Tashqi xotirada ma’lumotlarni ishonchli saqlash MBBT uchun asosiy talablardan biridir. Ishonchlilik deganda, har qanday apparat yoki dasturiy ta’minot ishlamay qolgandan so‘ng, MBBT ma’lumotlar bazasida so‘nggi o‘zgartirishlarni tiklay olishi tushuniladi. Apparat buzilishi mumkin bo‘lgan ikki holat odatda ko‘rib chiqiladi:
1) Yumshoq nosozliklar–bu kompyuterning to‘satdan o‘chishi (masalan, favqulodda chiroqnong o‘chib qolishi).
2) Qattiq nosozliklar–bu tashqi xotira vositalarida ma’lumotni yo‘qotish.
Dasturiy ta’minotning ishdan chiqishiga: MBBT yoki foydalanuvchi dasturining avariyaviy tugatilishi natijasida ba’zi bir tranzaksiyalar tugallanmay qoladi.Birinchi vaziyatni yumshoq turdagi apparat buzilishining o‘ziga xos turi sifatida ko‘rish mumkin; ikkinchisi esa sodir bo‘lganda, faqat bitta tranzaksiya oqibatlarini bartaraf etish talab qilinadi. Ma’lumotlar bazasini tiklash uchun har qanday holatda qo‘shimcha ma’lumotlarga ega bo‘lishingiz kerakligi aniq. Boshqacha qilib aytganda, ma’lumotlar bazasida ma’lumotlarni saqlashning ishonchliligi ortiqcha ma’lumot saqlash talab qiladi va qayta tiklash uchun ishlatiladigan ma’lumotlarning ushbu qismi ayniqsa ishonchli saqlanishi lozim. Bunday ortiqcha ma’lumotni saqlashning eng keng tarqalgan usuli bu ma’lumotlar bazasini qaydlar jurnalini yuritishdir.Jurnal -bu ma’lumotlar bazasining maxsus qismi bo‘lib, foydalanuvchilar kirishiga imkon bo‘lmagan va juda ehtiyotkorlik bilan saqlanadigan ma’lumotlar bazasining asosiy qismidagi barcha o‘zgarishlarning yozuvlarini o‘z ichiga oladi. Turli xil ma’lumotlar MBBT bazasining o‘zgarishiga qarab har xil darajada qayd qilinadi: ba’zida jurnal yozuvlari ma’lumotlar bazasini o‘zgartirishning ba’zi mantiqiy operatsiyalariga mos keladi (masalan, ma’lumotlar bazasining relyatsion jadvalidan qatorni o‘chirish operatsiyalari), ba’zan -tashqi xotira sahifasini o‘zgartirishning minimal ichki operatsiyasi; ba’zi tizimlar bir vaqtning o‘zida ikkala yondashuvdan foydalanadilar.Qayta tiklashning eng oddiy holati -bu tranzaksiyaning individual qaytarilishi. Bu tizim bo‘yicha ma’lumotlar bazasini o‘zgartirish jurnalini talab qilmaydi. Har bir tranzaksiya uchun ushbu operatsiyada bajarilgan ma’lumotlar bazasini o‘zgartirish operatsiyalarining lokal jurnalini yuritish va lokal jurnalning oxiridan boshlab teskari operatsiyalarni bajarish orqali uni orqaga qaytarish kifoya.
5. MB tillarini qo‘llab-quvvatlash.Ma’lumotlar bazalari bilan ishlash uchun odatda ma’lumotlar bazasi tillari deb ataladigan maxsus tillardan foydalaniladi. Dastlabki MBBTlar ixtisoslashgan bir nechta tillarni qo‘llab-quvvatlagan. Ko‘pincha, ikkita til -MB sxemasini aniqlash tili (SDL -Schema Definition Language) va ma’lumotlarni manipulyatsiya qilish tilidan (DML -Data Manipulation Language) foydalanilgan.
SDL asosan ma’lumotlar bazasining mantiqiy tuzilishini aniqlashga xizmat qilgan bo‘lib, ya’ni, ma’lumotlar bazasi tuzilishi foydalanuvchilarga qanday ko‘rinishda bo‘lganligini ko‘rsatgan. DML manipulyatsiya operatorlari to‘plamini o‘z ichiga olgan bo‘lib, ya’ni, ma’lumotlar bazasiga ma’lumotlarni kiritish, o‘chirish, o‘zgartirish yoki mavjud ma’lumotlarni tanlashga imkon beruvchi operatorlar hisoblangan.Zamonaviy MBBTlar odatda ma’lumotlar bazasi bilan ishlash uchun zarur bo‘lgan barcha vositalarnio‘z ichiga olgan yagona integral tilda ishlab, uni yaratishdan boshlab va ma’lumotlar bazalari bilan foydalanuvchi interfeysigacha o‘z ichiga oladi. Hozirgi kunda eng keng tarqalgan relyatsion MBBT ning standart tili SQL (Structured Query Language) hisoblanadi. Keling, “til darajasida”qo‘llab-quvvatlanadigan relyatsion MBBT ning asosiy funksiyalarini sanab o‘tamiz, ya’ni, SQL interfeysini ishlatishda qo‘llab-quvvatlanadigan funksiyalar (agar foydalanuvchi relyatsion ma’lumotlar modeli asoslarini yaxshi bilmasa, avval u bilan tanishib chiqishi va shundan keyingina SQL tilining asoslarini ko‘rib chiqishi mumkin).Avvalo, SQL -bu SDL va DML birikmasi bo‘lib; ma’lumotlar bazasining relyatsion sxemasini aniqlashga va ma’lumotlarni manipulyatsiya qilishga imkonberadi. Bunday holda ma’lumotlar bazasi obyektlarining nomlanishi til darajasida qo‘llab-quvvatlanadi va SQL kompilyatori maxsus qo‘llab-quvvatlanadigan xizmat katalog jadvallari asosida obyektnomlarini ichki identifikatorlariga aylantiradi.MBBT (yadro)ning ichki qismi jadvallar nomlari va ularning ustunlari bilan umuman ishlamaydi. SQL tilida ma’lumotlar bazasining yaxlitligi cheklovlarini aniqlash uchun maxsus vositalar mavjud. Shunga qaramay, yaxlitlik cheklovlari maxsus katalog jadvallarida saqlanadi va ma’lumotlar bazasining yaxlitligi til darajasida ta’minlanadi. Ma’lumotlar bazasini o‘zgartirish operatorlarini kompilyatsiya qilishda SQL kompilyatori ma’lumotlar bazasidagi yaxlitlik cheklovlari asosida tegishli dastur kodini hosil qiladi.Ma’lumotlar bazasi obyektlariga avtorizatsiya qilish SQL bayonotlarining maxsus to‘plami asosida amalga oshiriladi. G‘oya shundan iboratki, ma’lum bir SQL opretasiyasini bajarish uchun foydalanuvchi turli xil huquqlarga ega bo‘lishi kerak. Ma’lumotlar bazasi jadvalini yaratgan foydalanuvchi ushbu jadval bilan ishlash uchun to‘liq huquqlarga ega. Ushbu vakolatlarni to‘liq yoki qisman boshqa foydalanuvchilarga berish huquqini o‘z ichiga oladi. Foydalanuv-chilarning huquqlari maxsus katalog jadvallarida tavsiflangan bo‘lib; kirishni boshqarish til darajasida qo‘llab-quvvatlanadi.Har bir MBBT o‘z obyektturlarini qo‘llashi mumkin. Jadvallar – ma’lumotlar bazasida mavjud bo‘lgan barcha ma’lumotlarni saqlaydigan va ma’lumotlar bazasining tuzilishini (maydonlari, turlari va xususiyatlari) saqlaydigan har qanday ma’lumotlar bazasining asosiy obyektlaridir. Hisobotlar –ma’lumotlar chiqarish uchun ya’ni ularni ekranga emas, balki bosib chiqarish moslamasiga (printerga) chiqarish uchun mo‘ljallangan. Ularda chiqish ma’lumotlarini guruhlash va bosma hujjatlar uchun xos bo‘lgan elementlarni namoyish qilish uchun maxsus choralar (tepa va past kolontituli, sahifa raqamlari, hisobot yaratish vaqti va boshqalar) ko‘rilgan. So‘rovlar –jadvallardan ma’lumotlarni ajratib olish va foydalanuvchiga qulay shaklda taqdim etish uchun xizmat qiladi. Ular yordamida ma’lumotlarni tanlash, saralash va filtrlash amalga oshiriladi. Siz ma’lumotlarni berilgan algoritm bo‘yicha o‘zgartirishingiz, yangi jadvallar yaratishingiz, jadvallarni avtomatik ravishda boshqa manbalardan keltirilgan ma’lumotlar bilan to‘ldirishingiz, jadvallarda oddiy hisob-kitoblarni amalga oshirishingiz va boshqa ko‘p narsalarni qilishingiz mumkin. So‘rovlarning o‘ziga xos xususiyati shundaki, ular tayanch jadvallardan ma’lumotlarni yig‘aadi va ular asosida vaqtinchalik natijalar jadvalini yaratadi. Ya’ni asosiy jadvallardan tanlangan maydonlar va yozuvlar obrazi desak ham bo‘ladi. Obraz bilan ishlash qattiq diskda saqlangan jadvallarga qaraganda tezroq va samaraliroqdir. Ma’lumotlar bazasini yangilash so‘rov orqali ham amalga oshirilishi mumkin. Barcha ma’lumotlar qabul qilish tartibi asosida jadvallarga kiritiladi, ya’ni, ular saralanmagan bo‘ladi. Ammo tegishli so‘rov bo‘yicha siz kerakli usulda saralangan va filtrlangan ma’lumotlarni olishingiz mumkin.
Shakllar –foydalanuvchiga to‘ldirish uchun kerakli maydonlarni taqdim etadigan ma’lumotlar kiritish vositalari. Kirishni avtomatlashtirish uchunularga maxsus (hisoblagichlar, ochiladigan jadvallar, o‘zgartirgichlar, bayroqchalar va boshqalar) boshqaruv elementlarini joylashtirishingiz mumkin. Masalan, blankning ma’lum maydonlarini to‘ldirish. Shakllar yordamida ma’lumotlarni o‘zgartirishning maxsus vositalaridan foydalanishingiz mumkin. Sahifalar yoki ma’lumotlarga kirish sahifalari – HTML kodda bajarilgan, veb-sahifaga joylashtirilgan va shu bilan birga mijozga uzatiladigan ma’lumotlar bazasining maxsus obyektlari. Obyektning o‘zi ma’lumotlar bazasi emas; foydalanuvchi kirish sahifasi maydonlarida ma’lumotlar bazasi yozuvlarini ko‘rish uchun ishlatishi mumkin. Shunday qilib, sahifalar -bu mijoz, server va serverda joylashgan ma’lumotlar bazasi o‘rtasidagi interfeysdir. Makroslar va modullar – boshqarish tizimi bilan ishlashda takrorlanadigan operatsiyalarni avtomatlashtirish va dasturlash orqali yangi funksiyalarni yaratish uchun mo‘ljallangan. Makroslar MBBT ichki buyruqlar ketma-ketligidan iborat va ma’lumotlar bazasi bilan ishlashni avtomatlashtirish vositalaridan biridir. Modullar tashqi dasturlash tili yordamida yaratiladi. Bu ma’lumotlar bazasi yaratuvchisining nostandart funksional imkoniyatlarni yaratishi, mijozning o‘ziga xos talablariga javob berishi, boshqaruv tizimining tezligi va uning xavfsizlik darajasini oshirishi mumkin bo‘lgan vositalardan biridir. MBBTni tanlashning ko‘plab usullari mavjud. Ulardan eng soddasi, mavjud tizimlarning yaratilayotgan axborot tizimi loyihasining asosiy talablariga qanday javob berishini baholashga asoslangan. Murakkab va qimmat variant -bir nechta tizim asosida test loyihasini yaratish va undan keyin eng munosibini saralashdir. Ammo bu holatda ham, ba’zi tanlov mezonlariga tayanib, mumkin bo‘lgan tizimlar doirasini cheklash kerak.
Ma’lumotlar bazasini boshqarish tizimiga qo‘yiladigan asosiy talablar yoki boshqacha qilib aytganda, ma’lum bir tizimni tahlil qilishda foydalanadigan tanlov mezonlari uning oldiga qo‘yilgan maqsadlarga qarab farq qilishi mumkin. Ularni bir necha guruhlarga ajratish mumkin:
1.Ma’lumotlarni modellashtirish
2.Arxitektura xususiyatlari va funksional imkoniyatlari
3.Tizim ishini nazorat qilish
4.Ilova ishlab chiqish xususiyatlari
6.Ish quvvati
7.Ishonchlilik
8.Ish muhiti uchun talablar
9.Aralash mezonlar
Keling, ushbu guruhlarning har birini alohida ko‘rib chiqamiz. Ma’lumotlarni modellashtirish.Ishlatiladigan ma’lumotlar modeli.Ko‘plab ma’lumot modellari mavjud bo‘lib; keng tarqalganlari: ierarhik, tarmoqli, relyatsion, obyektli-relatsion va obyektli. Ma’lum bir modeldan foydalanish masalasi axborot tizimini loyihalashning dastlabki bosqichida hal qilinishi kerak.Triggerlar va saqlangan jarayonlar. Trigger -jadvalga qator kiritilganda, o‘zgartirganda yoki o‘chirganda doimiy chaqiriladigan ma’lumotlar bazasining dasturidir. Triggerlar o‘zgarishlarni qabul qilishdan oldin ularning to‘g‘riligi tekshirilishini ta’minlaydi. Saqlangan jarayon -bu serverda saqlanadigan va mijoz tomonidan chaqirilishi mumkin bo‘lgan dastur. Saqlangan jarayonlar to‘g‘ridan-to‘g‘ri ma’lumotlar bazasi serverida bajarilganligi sababli, ma’lumotlar bazasi mijozi yordamida shunga o‘xshash operatsiyalarni bajarishdan ko‘ra samarasi yuqoriroq bo‘ladi. Triggerlar va saqlangan jarayonlarni ishga tushirish uchun turli xil vositalardan foydalanadi.Qidiruv vositalari. Ba’zi zamonaviy tizimlarda o‘rnatilgan qo‘shimcha kontekstli qidiruv vositalari mavjud.Nazarda tutilgan ma’lumot turlari. Bu yerda ikki mustaqil mezonni hisobga olish kerak: tizimga kiritilgan tayanch yoki asosiy ma’lumot turlari va ularning tiplarini kengaytirish imkoniyati. Zamonaviy tizimlardagi ma’lumotlar turlarining asosiy to‘plamlari
ma’lum bir standartdan chetga chiqishi odatda unchalik katta bo‘lmasa ham, u yoki bu ishlab chiqaruvchilar tizimlarida ma’lumotlar turlarini kengaytirish mexanizmlari sezilarli darajada farq qiladi.So‘rovlar tilini qo‘llash. Barcha zamonaviy tizimlar ma’lumotlarga kirishning SQL-92 standart tili qo‘llaydilar, lekin ularning ko‘plari ushbu standartning ba’zi kengaytmalarini qo‘llaydilar.Arxitektura xususiyatlari va funksional imkoniyatlari.Harakatlanuvchanlik (mobillik). Harakatlanuvchanlik -bu tizimning u ishlayotgan muhitdan mustaqilligi. Bu holda atrof-muhit ham apparat, ham dasturiy ta’minot (operatsion tizim) hisoblanadi.O‘lchamlilik. MBBTni tanlashda ushbu tizim axborot tizimining o‘sishiga mos kelishi yoki kelmasligini hisobga olishi kerak va bu o‘sish foydalanuvchilar soni, saqlanadigan ma’lumotlar hajmi va qayta ishlangan ma’lumot ko‘rinishida namoyon bo‘lishi mumkin. Taqsimlilik.Ma’lumotlar bazalariga asoslangan axborot tizimlaridan foydalanishning asosiy sababi tashkilotning barchama’lumotlarini birlashtirishga intilishdir. Eng sodda va ishonchli yondashuv -bir serverda ma’lumotlarni saqlash va qayta ishlashni markazlashtirish. Afsuski, buning har doim ham imkoniyati yo‘q va siz taqsmlangan ma’lumotlar bazalaridan foydalanishingizkerak. Turli xil tizimlar taqsmlangan ma’lumotlar bazalarini boshqarish uchun turli xil imkoniyatlarga ega.Tarmoq imkoniyatlari.Ko‘pgina tizimlar tarmoq protokollari va xizmatlaridan keng doirada foydalanadi.Tizim faoliyatini nazoratlash.Kompyuter xotirasidan foydalanishni boshqarish. Tizim operativ xotiradan va diskdagi joydan foydalanishni boshqarishi mumkin. Ikkinchi holda, ma’lumotlar bazalarini siqishda yoki ortiqcha fayllarni olib tashlashda ifodalanishi mumkin.Avtomatik sozlash. Ko‘pgina zamonaviy tizimlar o‘z-o‘zini sozlash imkoniyatlarini o‘z ichiga olib, bu odatda servisning o‘zini diagnostika qilish xizmatlariga tayanadi.Ushbu xususiyat tizim konfiguratsiyasidagi zaif tomonlarni aniqlashga va uni maksimal darajada ishlash uchun avtomatik ravishda sozlashga imkon beradi.
Ilovani ishlab chiqish xususiyatlari. Ko‘pgina MBBT ishlab chiquvchilari o‘z tizimlari uchun qo‘shimcha vositalarini ham chiqaradilar. Shuni ta’kidlash joizki, ushbu vositalar serverning barcha imkoniyatlarini eng yaxshi darajada qo‘llashga imkon beradi, shuning uchun ma’lumotlar bazasini tahlil qilishda siz dasturlarni ishlab chiqish vositalarining imkoniyatlarini ham hisobga olishingiz kerak. Loyihalash. Ba’zi tizimlarda ma’lumotlar bazalari uchun ham, dasturlar uchun ham avtomatlashtirilgan loyihalash vositalari mavjud. Turli ishlab chiqaruvchilarning loyiha vositalari sezilarli darajada farq qilishi mumkin. Ko‘p tilli qo‘llab-quvvatlash. Ko‘p sonli milliy tillarni qo‘llab-quvvatlash tizim va uning asosida yaratilgan dasturlarning ko‘lamini kengaytiradi. Web-ilovalarni ishlab chiqish imkoniyatlari. Turli xil dasturlarni ishlab chiqishda ko‘pincha Internet muhiti imkoniyatlaridan foydalanish kerak bo‘ladi. Ba’zi ishlab chiqaruvchilarning ish vositalarida veb-ilovalarni yaratish uchun keng vositalar mavjud. Qo‘llab-quvvatlanadigan dasturlash tillari.Amaldagi dasturlash tillarining keng doirasi dasturchilar uchun tizimning imkoniyatini oshiradi, shuningdek yaratilayotgan dasturlarning ishlashi va funksionalligiga sezilarli ta’sir ko‘rsatishi mumkin.
Katta ma’lumotlarni qayta ishlash texnologiyalari(Big Data)
Katta ma’lumotlarni o‘rganish va tahlil qilish rivojlanish va kengayishda davom etadigan murakkab va juda muhim yo‘nalishdir. Har yili inson tobora ko‘proq ma’lumot ishlab chiqaradi va uning asosiy qismi tartibsiz shaklda bo‘ladi. Shu turdagi ma’lumotlarni tahlil qilishni o‘rganish, alohida ma’lumotlar to‘plamlari orasidagi aloqalarni aniqlash davrimizning eng muhim vazifasidir. IBM korporatsiyasi ushbu vazifaning muhimligini tushunib, katta ma’lumotlar bilan ishlash vositalarini ishlab chiqishda BIG DATA sohasida katta ilmiy ish olib bormoqda.
Katta ma’lumotlar bilan ishlash deyarli barcha sohalarda zarur: fan, tibbiyot, biznes. Big Data ni qayta ishlash ayniqsa biznes yechimlari uchun foydalidir. Ushbu sohada saralanmagan ma’lumotlarni tezda qayta ishlash qobiliyati muvaffaqiyat omillaridan biridir. Axir, bu sizning xaridorlaringiz, potentsial xaridorlaringiz yoki iste’molchilar haqida ma’lumotlarning keng namunalarini olish, bozor tendentsiyalari va uning turli tarmoqlari dinamikasi to‘g‘risida raqobatchilardan oldinroq o‘rganish imkoniyatini beradi. Boshqacha qilib aytganda, katta ma’lumotlarni qayta ishlash yangi mijozlar va yuqori daromad olish imkonini beradi.“BIG DATA”iborasi 2008-yilda Klifford Linchning yengil qo‘li bilan paydo bo‘ldi. Naturejurnalining maxsus sonida mutaxassis axborot oqimlarining portlovchi o‘sishini –BIG DATA deb atadi. Unda u kuniga 150 Gb dan ortiq bo‘lgan har qanday ma’lumotlarning massivlarini kiritdi. 2011-yilgacha katta ma’lumot texnologiyalari faqat ilmiy tahlil sifatida ko‘rib chiqilgan va amaliy yechim topmagan. Biroq, ma’lumotlar miqdori keskin o‘sib bordi va juda ko‘p miqdordagi tartiblanmagan ma’lumotlar muammosi 2012-yil boshida dolzarb bo‘lib qoldi. BIG DATA ga bo‘lgan qiziqish Google Trends da aniq ko‘rinadi (8.3-rasm). Raqamli biznes gigantlari-Microsoft, IBM, Oracle, EMC va boshqalar-yangi yo‘nalishni rivojlantirishga qo‘shilishdi. 2014-yildan buyon big data universitetlarda o‘rganilib, amaliy fanlar -muhandislik, fizika, sotsiologiyada qo‘llanilmoqda.Vikipediya, 2018 yil o‘rtalarida, Big Data atamasiga quyidagi ta’rifni berdi: Big Data —2000-yillarning oxirida paydo bo‘lgan va an’anaviy ma’lumotlar bazalarini boshqarish tizimlari va Business Intelligence turkumining yechimlariga muqobil bo‘lgan gorizontal ravishda kengaytiriladigan dasturiy vositalar tomonidan samarali qayta ishlangan, katta hajmdagi tizim
8.3-rasm.Google Trendsda katta big dataqidiruv natijalari. Ko‘rib turganingizdek, ushbu ta’rifda “ulkan”, “muhim”, “samarali”va “muqobil”kabi atamalar mavjud. Hatto nomining o‘zi ham juda subyektivdir.
Masalan, 4 Terabayt (zamonaviy noutbukning tashqi qattiq diski hajmi) katta ma’lumotmi yoki yo‘qmi? IBS kompaniyasi tahlilchilari “butun dunyo ma’lumotlar hajmini”quyidagicha baholadilar: 2003-yil. —5 eksabayt ma’lumot (1 EB = 1 mlrd gigabayt)2008-yil. —0,18 zettabayt ma’lumot (1 ZB = 1024 eksabayt) 2015-yil. —более 6,5 zettabaytdan ortiq 2020-yil. —40–44 zettabayt (bashorat) 2025-yil. —bu ko‘rsatgich yana 10 barobarga oshadi. Hisobotda ma’lumotlarning aksariyati iste’molchilar tomonidan emas, balki korxonalar tomonidan ishlab chiqarilishi ta’kidlanadi.Siz jurnalist va marketologlar fikriga to‘liq mos keluvchi oddiyroq ta’rifdan foydalanishingiz mumkin. BIG DATA—bu uchta operatsiyani bajarishga mo‘ljallangan texnologiyalar to‘plami:
1.“Standart”ssenariyga nisbatan katta hajmdagi ma’lumotlarni qayta ishlash.
2. Juda katta hajmdagi tez keladigan ma’lumotlar bilan ishlashni o‘rganish.
3.Tartiblangan va tartiblanmagan ma’lumotlar bilan parallel va turli mezonlarga ko‘ra ishlay olish.
Ushbu “ko‘nikmalar”insonning cheklangan idrokidan chetda qolgan yashirin narsalarni ochib berishga imkon beradi deb ishoniladi. Bu bizning hayotimizning ko‘plab sohalarini: hukumat, tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqalarni optimallashtirish uchun misli ko‘rilmagan imkoniyatlarni beradi. Jurnalistlar va marketologlar Big Data iborasini shu qadar tez-tez ishlatib kelganliklari sababli, ko‘plab mutaxassislar ushbu atamani noaktual deb hisoblashadi va undan voz kechishni taklif qilishadi. Katta ma’lumotlarni aniqlovchi xususiyatlari sifatida, ularning fizik hajmidan tashqari va uni tahlil qilish murakkabligi ham sanab o‘tiladi. VVV xususiyatlar to‘plami (volume, velocity, variety —jismoniy hajm, ma’lumotlarning o‘sish tezligi va ularni tezkor qayta ishlashga bo‘lgan ehtiyoj, bir vaqtning o‘zida har xil turdagi ma’lumotlarni qayta ishlash qobiliyati) Meta Group tomonidan 2000-yilda barcha uch yo‘nalish bo‘yicha ma’lumotlarni boshqarishning teng ahamiyatini ta’kidlash uchun ishlab chiqilgan.1.Hajm (Volume) –ma’lumotlar miqdori va raqamli muhitda egallagan o‘rni bilan o‘lchanadi. “BIG” turkumiga kuniga 150 Gb dan ortiq massivlar kiradi.2.Yangilanish tezligi (Velocity) –ma’lumotlar muntazam ravishda yangilanadi va real vaqtda qayta ishlash uchun aqlli katta ma’lumot texnologiyalari zarur.3. Xilma-xillik (Variety) –massivlardagi ma’lumotlar turli formatga ega bo‘lishi mumkin bo‘lib, qisman, to‘liq va tartibsiz to‘planishi mumkin.Masalan, ijtimoiy tarmoqlarda katta ma’lumotlar, matn, video, audio, moliyaviy tranzaksiyalar, rasmlar va boshqalar qo‘llaniladi.Zamonaviy tizimlarda ikkita qo‘shimcha omil ko‘rib chiqiladi:
1)O‘zgaruvchanlik (Variability) –ma’lumot oqimlari ko‘tarilish va pasayish, mavsumiylik, davriylik omiliga ega bo‘lishi mumkin.
Tartyibsiz axborotni boshqarish qiyin va ularni qayta ishlash uchun kuchli texnologiyalarini talab qilinadi.2)Ma’lumotlar qiymati (Value) –axborotni idrok etish va qayta ishlash jarayonida turli xil murakkabliklar bo‘lishi mumkin. Bu esa intellektual tizimlar ishini murakkablashtiradi. Masalan, ijtimoiy tarmoqlardan keladigan xabarlar massivi -bu ma’lumotlarning bir darajasi, tranzaksiya operatsiyalari boshqasi. Mashinalarning vazifasi -tezkor tartiblash uchun kiruvchi ma’lumotlarning muhimlik darajasini aniqlash.Katta ma’lumotlar texnologiyasining ishlash tamoyili foydalanuvchini har qanday obyektyoki hodisa to‘g‘risida maksimal darajada xabardor qilishga asoslanadi. Ma’lumotlar bilan tanishishning maqsadi to‘g‘ri qaror qabul qilish uchun ijobiy va salbiy tomonlarni ko‘rib chiqishga yordam berishdir. Aqlli mashinalarda bir qator ma’lumotlar asosida kelajak modeli quriladi, so‘ngra turli xil variantlar simulyatsiya qilinadi va natijalar kuzatiladi.Zamonaviy analitik agentliklar g‘oyani, taxminni yoki muammoni hal etishda millionlab shunga o‘xshash simulyatsiyalarni qo‘llaydilar. Jarayon avtomatlashtirilgan.Katta ma’lumot manbalariga quyidagilar kiradi:Internet bloglar, ijtimoiy tarmoqlar, saytlar, OAV va turli forumlar;Arxiv, tranzaksiyalar, ma’lumotlar bazasi;o‘qish moslamalari -meteorologik qurilmalar, uyali aloqa dachchiklari va boshqalar.Yuqoridagi ta’riflarga asoslanib, katta ma’lumotlar bilan ishlashning asosiy tamoyillari quyidagilar:
1. Gorizontal mashtablilik. Bu katta ma’lumotlarni qayta ishlashning asosiy tamoyilidir. Yuqorida aytib o‘tganimizdek, kundan kunga katta ma’lumotlar ortmoqda. Shunga ko‘ra, ushbu ma’lumotlar tarqatiladigan hisoblash tugunlari sonini ko‘paytirish va sifat darajasini oshirish lozim. Ma’lumotlar miqdori 2 barobar oshdi degani -klasterdagi temir miqdori 2 barobar oshdi degani.
2. Faoliyat barqarorligi. Ushbu tamoyil avvalgisidan kelib chiqadi. Klasterda ko‘plab hisoblash tugunlari bo‘ladi (ba’zan o‘n minglab) va ularning soni ko‘payishi aniq. Shuning uchun mashinaning ishlamay qolish ehtimoli oshadi. Masalan, Yahoo-ning Hadoop klasterida 42000 dan ortiq mashinalar mavjud. Ma’lumotlarning katta qismi bunday uzilishlar ehtimolini hisobga olishi va ularni sifatli saqlab turishi kerak.
3. Ma’lumotlarning lokalligi.
Ma’lumotlar juda ko‘p sonli hisoblash tugunlari bo‘yicha tarqatilganligi sababli, agar ular bir serverda jismonan joylashgan bo‘lsa va boshqasida qayta ishlansa, ma’lumot uzatish xarajatlari asossiz ravishda katta bo‘lishi mumkin. Shuning uchun, ular saqlanadigan o‘sha mashinada ma’lumotlarni qayta ishlash maqsadga muvofiqdir. Ushbu tamoyillar yaxshi tuzilgan ma’lumotlar uchun an’anaviy, markazlashtirilgan, vertikal saqlash modellarida mavjud bo‘lganlardan farq qiladi. Shunga ko‘ra, katta ma’lumotlar bilan ishlash uchun yangi yondashuvlar va texnologiyalar ishlab chiqilmoqda. Dastlab yondashuvlar va texnologiyalar to‘plamiga noSQL MBBT, MapReduce algoritmlari va Hadoop loyiha vositalari kabi tuzilgan ma’lumotlarni massiv ravishda parallel qayta ishlash vositalari kiritilgan. Keyinchalik juda katta hajmdagi ma’lumotlar massivlariniqayta ishlashga o‘xshash imkoniyatlarni ta’minlaydigan boshqa yechimlar va ba’zi bir qo‘shimcha qurilmalar katta ma’lumotlar texnologiyalari deb nomlana boshlandi.MapReduce—Google tomonidan taqdim etilgan kompyuter klasterlarida taqsimlangan parallel hisoblash modeli. Ushbu modelga muvofiq, dastur klaster tugunlarida bajariladigan va so‘ngra yakuniy natijaga qadar tabiiy ravishda kamaytirilgan bir xil elementar topshiriqlarning ko‘p soniga bo‘linadi. MapReduce ishlash tamoyili 8.4-rasmda ko‘rsatilgan
Reducefunksiyasi foydalanuvchi tomonidan belgilanadi va alohida “savat”uchun yakuniy natijani hisoblab chiqadi. Reduce funksiyasi tomonidan qaytarilgan barcha qiymatlar to‘plami MapReduce vazifasining yakuniy natijasidir.MapReduce haqida bir nechta qo‘shimcha ma’lumotlar:
1) Mapfunksiyasining barchasi mustaqil va parallel ravishda ishlaydi. Shu jumladan klasterdagi turli xil mashinalarda ham ishlashi mumkin.
2) Reducefunksiyasining barchasi mustaqil vaparallel ravishda ishlaydi. Shu jumladan klasterdagi turli xil mashinalarda ham ishlashi mumkin.
3) Shufflefunksiyasining ichki tuzilishi parallel bo‘lib, u ham klasterdagi turli xil mashinalarda ishlashi mumkin.1-3-bandlar gorizontal mashtablashtirish tamoyilini bajarishga imkon beradi.
4) Mapfunksiyasi odatda ma’lumotlar saqlanadigan o‘sha mashinada qo‘llaniladi -bu tarmoq orqali ma’lumotlar uzatilishini kamaytirishga imkon beradi (ma’lumotlar lokalligi tamoyili).
5) MapReduce –bu har indekslar mavjudligini va doim to‘liq ma’lumotlarni skanerlash degani. Bu MapReduce juda tez javob talab etilganda juda yomon ishlashini anglatadi.NoSQL(Not Only SQL) —turli norelatsion ma’lumotlar bazalari va omborlari uchun umumiy atama bo‘lib, ma’lum bir texnologiya yoki mahsulotga tegishli emas. An’anaviy relyatsion ma’lumotlar bazalari juda tez va bir xil so‘rovlar uchun juda mos keladi va aksincha katta ma’lumotlarga xos bo‘lgan murakkab va egiluvchan so‘rovlarda bosim o‘rtacha me’yordan oshib ketadi va MBBT danfoydalanish samarasiz bo‘ladi.Hadoop—yuzlab va minglab tugunlarning klasterlarida ishlaydigan tarqatiladigan dasturlarni ishlab chiqish va bajarish uchun utilita, kutubxonalar va ramkalar to‘plami. Bu katta ma’lumotlarning asoslaridan biri hisoblanadi.R—statistik ma’lumotlarni qayta ishlash va grafikalar uchun dasturlash tili. U ma’lumotlarni tahlil qilish maqsadida keng qo‘llaniladi va statistik dasturlarning amaldagi standartiga aylangan.Apparatli yechimlar. Teradata korporatsiyasi, EMC va boshqalar katta ma’lumotlarni qayta ishlashga mo‘ljallangan
apparatli va dasturiy ta’minot tizimlarini taklif qilishadi. Ushbu majmualar server klasteri va massiv parallel ishlov berish uchun boshqaruv dasturini o‘z ichiga olgan o‘rnatishga tayyor telekommunikatsion shkaflar sifatida yetkazib beriladi. Bunga ba’zida operativ xotirada analitik ishlov berish uchun apparatli yechimlari ham kiritiladi. Xususan, SAP kompaniyasidan Hanava Oracle kompaniyasidan Exalytics apparat va dasturiy ta’minot tizimlari kompleksi bo‘lishiga qaramay, ularning operativ xotirasi miqdori bir necha terabayt bilan cheklanadi.McKinsey konsalting kompaniyasi aksariyat tahlilchilar tomonidan ko‘rib chiqiladigan NoSQL, MapReduce, Hadoop, Rtexnologiyalaridan tashqari Business Intelligencetexnologiyalari va SQL tilini qo‘llab-quvvatlaydigan katta ma’lumotlarni qayta ishlashga qodir relyatsion ma’lumotlar bazasini boshqarish tizimlarini o‘z ichiga oladi.McKinsey xalqaro strategik boshqaruv kompaniyasi katta ma’lumotlarga tatbiq etilishi mumkin bo‘lgan 11 ta tahliliy uslublarni keltiradi.
•Data Mininguslubi(ma’lumotlarni olish, ularni intellektual va chuqur tahlil qilish) —qaror qabul qilish uchun zarur bo‘lgan ilgari noma’lum, ahamiyatsiz, amaliy foydali bilimlarni aniqlash usullari to‘plami. Bunday usullarga, xususan, assotsiativ qoidalarni o‘qitish (association rule learning), klassifikatsiya qilish (turkumlarga ajratish), klasterli tahlil, regression tahlil, og‘ishlarni aniqlash va tahlil qilish va boshqalar kiradi.• Kraudsorsing—buishni mehnat munosabatlariga kirmasdan bajaradigan keng doira kuchlari tomonidan ma’lumotlarni tasniflash va boyitish.• Ma’lumotlarni birlashtirish va integratsiya qilish(data fusion and integration) —chuqur tahlil qilish maqsadida (raqamli signallarniqayta ishlash, nutqni qayta ishlash, shu jumladan ohang tahlili va h.k) turli xil manbalardan olingan ma’lumotlarni birlashtirishga imkon beradigan texnik vositalar to‘plami).
• Avtomatik ta’lim. shu jumladan nazorat ostida va nazoratsiz o‘rganish -bazaviy modellardan murakkab bashoratlarni yaratish uchun statistik tahlilga asoslangan modellardan foydalanish yoki avtomatik ta’lim.• Sun’iy neyronli tarmoqlar. Tarmoqli tahlil, optimallashtirish, shu jumladan genetik algoritmlar (genetic algorithm —Tabiatda tabiiy tanlov jarayoniga o‘xshash mexanizmlardan foydalangan holda, kerakli parametrlarni tasodifiy tanlash, kombinatsiya qilish va o‘zgartirish orqali optimallashtirish va modellashtirishni hal qilishda foydalaniladigan evristik qidiruv algoritmlari).•Bashoratli tahlil. Tahlilchilar tizimga oldindan ma’lum parametrlarni o‘rnatishga harakat qiladilar. So‘ngra katta hajmdagi ma’lumotlarning kelib chiqishi asosida obyektning xatti-harakatlarini tekshiradilar.• Imitativ modellashtirish(simulation) —jarayonlarni haqiqatda bo‘lgani kabi tasvirlaydigan modellarni yaratishga imkon beradigan usul. Imimtatsiyani eksperimental sinovning bir turi deb hisoblash mumkin.• Statistik tahlil—vaqtinchalik qatorlar tahlili, A/B-testlash (A/B testing, split testing —marketing tadqiqot usuli: undan foydalanganda, elementlarning nazorat guruhi bir yoki bir nechta ko‘rsatkichlar o‘zgartirilgan test guruhlari to‘plami bilan taqqoslanadi. Bu o‘zgarishlar aniq nima yaxshilaganligini aniqlash uchun qilinadi.• Tahliliy ma’lumotlarni vizuallashtirish—natijalarni olish, qo‘shimcha ma’lumotlarni tahlil qilish uchun kirish ma’lumotlari sifatida ishlatish interaktivlik va animatsiyadan foydalangan holda ma’lumotlarni rasmlar, diagrammalar shaklida taqdim etish. Keng qamrovli ma’lumotlarni tahlil qilishning eng muhim bosqichi bo‘lib, bu sizga tahlil natijalarini tushunarli shaklda taqdim etishga imkon beradi. BIG DATA dan maksimal darajada foydalanish uchun faqat analitik IT-yechimlarni qo‘llashning o‘zi yetarli emas. Ushbu ma’lumotlarning tartibsiz manbalaridan yig‘ilishini va ajratib olinishini tashkil qilish kabi ishlar muhim ahamiyatga ega bo‘lib, shu maqsadlar uchun data, text, procces miningishlatiladi. Turli sohalarida katta ma’lumotlardan foydalanish.Biznes va marketingsohasidagi katta ma’lumotlar. Inson ma’lum narsa va hodisalar to‘g‘risida qanchalik ko‘p ma’lumotga ega bo‘lsa, aniq bashorat qilish ehtimoli shuncha yuqori bo‘ladi. BIG DATA biznes va marketing sohasi uchun juda muhim. Biznes strategiya, marketing faoliyati, reklama tahliliga va mavjud ma’lumotlar bilan ishlashga asoslangan. Katta massivlar katta miqdordagi ma’lumotni tahlil qilishga imkon beradi va shunga mos ravishda tovar, mahsulot, xizmatni rivojlantirish yo‘nalishini iloji boricha aniqroq ko‘rsatadi.Masalan, RTB kim oshdi savdosi katta ma’lumotlar bilan ishlaydi va tijoriy takliflarini hammaga emas, balki kerakli auditoriyaga samarali ravishda reklama qilish imkonini beradi.Biznes uchun foydasi:foydalanuvchilar va xaridorlar orasida talabga mos bo‘lgan loyihalarni yaratish.kompaniyaning mavjud xizmati asosida mijozlar talablarini o‘rganish va tahlil qilish. Hisob-kitob asosida xizmat ko‘rsatuvchi xodimlarning ishini yaxshilash.Bloglar, ijtimoiy tarmoqlar va boshqa manbalardan olingan turli xil ma’lumotlarni tahlil qilish orqali mijozlar bazasining loyal yoki noroziligini aniqlash.Ko‘p sonli ma’lumot bilan tahliliy ish olib borish orqali auditoriyani jalb qilish va saqlab qolish. Google Trends, Yandex va Wordstat (Rossiya va MDH uchun) texnologiyalaridan foydalangan holda mahsulotlarning ommabopligini taxmin qilish mumkin. BIG DATA dan barcha yirik kompaniyalar -IBM, Google, Facebook va moliyaviy korporatsiyalar -VISA, Master Card, shuningdek, dunyodagi ba’zi vazirliklar foydalanadi. Masalan, Germaniyada ba’zi fuqarolar ishsizlik bo‘yicha nafaqani asossiz olayotgani hisoblanib, ishsizlik bo‘yicha nafaqa berish qisqartirildi. Shunday qilib, budjetga taxminan 15 milliard yevro qaytarildi.
Yaqinda foydalanuvchi ma’lumotlarining tarqalishi sababli yuzaga kelgan Facebook bilan bog‘liq mojaro saralanmagan ma’lumotlar hajmi o‘sib borishini va hatto raqamli asrning gigantlari ham har doim konfidensiallikni to‘liq ta’minlay olmasliklari ko‘rinib qoldi.Masalan, Master Card mijozlarning hisob varoqlari bilan bog‘liq firibgarlik operatsiyalarining oldini olish uchun katta ma’lumotlardan foydalanadi. Shunday qilib, yiliga o‘g‘irlikdan 3 milliard AQSh dollaridan ko‘proq mablag‘ni asrab qolish mumkin.O‘yin sohasida katta ma’lumotlar o‘yinchilarning xatti-harakatlarini tahlil qilish, faol auditoriyani aniqlash va shu asosda o‘yinga qiziqish darajasini taxmin qilish imkonini beradi.Bugungi kunda korxonalar o‘z mijozlari haqida ularning o‘zlaridan ham ko‘proq ma’lumotga ega. Shuning uchun Coca-Cola va boshqa korporatsiyalarning reklama kampaniyalari muvaffaqiyat qozonadi.Bank sektori yuqori xavfli guruhga mansubligini hisobga olsak, supermassiv tahlilni joriy etish juda muhimdir. Bu firibgarlikdan himoya qilib, xavfni boshqarish, xarajatlarni optimallashtirish vaxizmat sifatini yaxshilashga yordam beradi. Bu omillarning barchasi potentsial mijozning sodiqligiga sezilarli darajada ta’sir qiladi, ya’ni foyda faqat oshadi. Tizimning samaradorligi allaqachon zamonaviy bank gigantlari tomonidan sinovdan o‘tkazilgan: Sberbank, VTB24, Alfa-Bank, Tinkoff.Sanoatdagi katta ma’lumotlar. McKinsey ma’lumotiga ko‘ra ma’lumotlar ishlab chiqarishning mehnat omili va ishlab chiqarish aktivlari kabi muhim omiliga aylandi. BIG DATA dan foydalanish orqali kompaniyalar ustunliklarga ega bo‘lishlari mumkin. BIG DATA texnologiyalari quyidagi vazifalarni hal qilishda foydali bo‘lishi mumkin:bozor holatini bashorat qilish;marketingvasotuvni optimallashtirish;mahsulotni takomillashtirish;boshqaruv qarorlarini qabul qilish;mehnat unumdorligini oshirish;samarali logistika;asosiy fondlar holatini monitoring qilish.
Sanoat korxonalarida, shuningdek, sanoatda internet-texnologiyalarini qo‘llash natijasida katta ma’lumotlar hosil bo‘ladi. Ushbu jarayon davomida mashinalar va stanoklarning asosi va detallariga datchiklar, kontrollerlar va ba’zan hisob-kitoblarni amalga oshirishga qodir bo‘lgan arzon protsessorlar o‘rnatiladi. Ishlab chiqarish jarayonida ma’lumotlar doimiy ravishda to‘planadi va oldindan qayta ishlanadi (filtrlanadi). Tahliliy platformalar ushbu ma’lumotlar massivlarini real vaqt rejimida qayta ishlaydi va natijalarni eng sodda shaklda taqdim etadi. Olingan ma’lumotlarni tahlil qilish asosida jihozlarning holati, uning ishlash samaradorligi, mahsulot sifati, texnologik jarayonlarga o‘zgartirish kiritish zarurligi va boshqalar to‘g‘risida xulosalar chiqariladi.Axborotni real vaqt rejimida kuzatib borish orqali korxona xodimlari:turibqolishlar sonini kamaytirishi;uskunalarning ishlash ko‘rsatkichlarini oshirishi;uskunalarning ekspluatatsiya xarajatlarini kamaytirishi;baxtsiz hodisalarning oldini olishi mumkin.Oxirgi sanab o‘tilgan jihat muhim. Masalan, kimyo -neft sanoatidagi operatorlar kuniga o‘rtacha 1500 ta signal oladilar. Bu bir daqiqada birdan ortiq xabar degani. Bu esa operatorning tez charchashiga olib keladi. Zero, ular berilgan signalga qanday javob berish kerakligi to‘g‘risida doimiy qarorlar qabul qilishlari kerak. Ammo tahliliy platforma ikkilamchi ma’lumotlarni filtrlashi mumkin bo‘lib, operatorlar birinchi navbatda muhim vaziyatlarga e’tibor qaratishlari mumkin. Bu ularga baxtsiz hodisalarni yanada samarali aniqlash va oldini olishga imkon beradi. Natijada sanoat xavfsizligi, texnologik uskunalarning tayyorligi va me’yoriy talablarga muvofiqligi darajasi oshadi.Bundan tashqari, katta ma’lumotlarning tahlili natijalariga ko‘ra, uskunaning o‘zini oqlash muddatini, texnik xodimlarni qisqartirish yoki qayta taqsimlashni hisoblash mumkin -ya’ni, korxonani yanada rivojlantirish bo‘yicha strategik qarorlar qabulqilinishi mumkin.Foydalanuvchilarni shartli ravishda har xil faoliyatni amalga oshiradigan 5 guruhga kiritish mumkin:
Ta’minotchilar —vazifalariga axborot saqlash va qayta ishlash masalalari kiradi. Masalan: IBM, Microsoft, Oracle, Sap va boshqalar.Datamaynerlar —yuqori darajadagi maxsus bilimlarni olishga qaratilgan noyob algoritmlarni yaratish bilan shug‘ullanadi. Ular orasida: Yandex Data Factory, Algomost, Glowbyte Consulting, CleverData va boshqalar.tizim integratsiyasi —mijozdan ma’lumotlarni yig‘ish va uzatish: «Форс», «Крок».Iste’molchilar —yangi dasturlarni sotib oluvchilar. «Сбербанк», «Газпром», «МТС», «Мегафон» va moliya, telekommunikatsiya, chakana savdo sohalarining boshqa kompaniyalari.Xizmatni yaratuvchilar —BIG DATA ga kirishni keng foydalanuvchilarga taklif etuvchilar.Google. 2012-yilda Big Query—bu katta ma’lumotni real vaqtda tahlil qilish uchun bulut (облако) bozorga chiqarildi. 2013-yil unga Premium Analytics—pullik asosda korporativ mijozlar uchun analizator hisoblagichi kiritildi. Yaqinda Cloud Bigtable—gorizontal ravishda o‘sib boruvchi bulutli saqlash xizmati chiqarildi.«Яндекс».Kompaniya deyarli faoliyatini tizim asosida qurdi: qidiruv algoritmi, avtomatik tarjimon, spamga qarshi himoya, targetli reklama, tirbandlikni tahlil va bashorat qilish, nutq va yuzni aniqlash.Yaqin vaqtgacha yirik kompaniyalar konsultatsiya uchun Yandex Data Factorybilan bog‘lanishlari kerak edi, ammo bugungi kunda u to‘liq qidiruv bo‘limiga o‘tkazildi.Mail.Ru Group. Birinchilardan bo‘lib noyob texnologiyadan amalda foydalanishni boshladi. Ular barcha xizmatlarga joylashtirilgan. Yangi metodologiyani joriy etish tufayli MailRu reklamani yo‘naltirishi, qidiruv so‘rovlarini optimallashtirishi, texnik qo‘llab-quvvatlash guruhining tezkor ishlashi ta’minlashi, filtrlash va spamlardan himoya qilishni taklif qiladi.«Рамблер». Dastlab, faqat qidiruv so‘rovlarida ishlatilgan, ammo keyinchalik data-miningrivojlana boshladi. Ish faoliyatida kontentni ajratish, keraksiz resurslarni blokirovka qilish mumkin.Har bir yangi ixtiro ahamiyatga ega bo‘lishi uchun katta foyda keltirishi kerak. Ushbu mezon BIG DATA uchun ham aktualdir:
osonroq rejalashtirish;
info-mahsulotlarni tezkor ishga tushirish;
mahsulotga bo‘lgan talab;
foydalanishdan qoniqishni baholash qobiliyati;
kerakliauditoriyani oson qidirish
;ta’minotni optimallashtirish;
sifatni oshirish va o‘zaro ta’sir tezligini oshirish;
mijozlar loyalliginioshirish.
2019-yilda o‘nyillik boshiga nisbatan axborotni idrok etish va en gmuhimi, massivlar bilan ishlashning ahamiyati 4-5 baravaroshdi. BIG DATA ning kichik, o‘rta biznes va startap sohalariga integratsiyalashuvi yuz berdi
Bulutli omborlar.Onlayn maydonda ma’lumotlarni saqlash va ular bilan ishlash texnologiyalari kichik va o‘rta biznes uchunjuda ko‘p muammolarni hal qiladi: Ma’lumotlar markazini saqlashdan ko‘ra bulutni sotib olish arzonroq bo‘lib, xodimlar masofadan turib ishlashlari ham mumkinbo‘ladi.
|