Ma’lumotlar ombori tushunchasi va uni tashkil etuvchilari. Ma’lumotlar ombori haqida tushuncha




Download 2,76 Mb.
bet6/80
Sana30.11.2023
Hajmi2,76 Mb.
#108480
1   2   3   4   5   6   7   8   9   ...   80
Bog'liq
1-10

Klassik ravishda LSA quyidagi darajalarda amalga oshiriladi [3] :


  • birlamchi ma'lumotlarning operatsion qatlami (Birlamchi ma'lumotlar qatlami yoki staging), bu erda ma'lumotlar asl sifatida manba tizimlaridan yuklanadi va o'zgarishlarning to'liq tarixi saqlanadi. Saqlashning keyingi qatlamlari ma'lumotlar manbalarining fizik tuzilishidan, ular qanday to'planishidan va o'zgarishlarni qanday aniqlanishidan kelib chiqadi.


  • Yadro Ma'lumotlar Qatlami - bu turli xil manbalardagi ma'lumotlarni birlashtiradigan, ularni bir xil tuzilmalar va kalitlarga etkazadigan markaziy komponent. Bu erda iste'molchilarni ma'lumot manbalarining mantiqiy tuzilishi xususiyatlaridan va ularni o'zaro taqqoslash zaruriyatidan mavhumlashtirish uchun ma'lumotlar sifati va umumiy transformatsiyalar bilan asosiy ish olib boriladi . Bu ma'lumotlar yaxlitligi va sifatini ta'minlash masalasini hal qiladi.


  • analitik vitrinalar (Data Mart Layer) , bu erda ma'lumotlar tahlil qilish va BI boshqaruv panellarida yoki boshqa iste'molchilar tizimlarida foydalanish uchun qulay bo'lgan tuzilmalarga aylantiriladi. Ma'lumotlar martlari yadrodan ma'lumotlarni olganda, ular muntazam deb nomlanadi. Agar mahalliy muammolarni tezda hal qilish uchun ma'lumotlarni birlashtirish kerak bo'lmasa, mart operatsion qatlamdan asosiy ma'lumotlarni olishi mumkin va shunga mos ravishda operatsion qatlam deb ataladi. Murakkab hisob-kitoblar va atipik o'zgarishlarning natijalarini taqdim etish uchun ishlatiladigan ikkinchi darajali vitrinalar ham mavjud. Shunday qilib, do'kon peshtaxtalari muayyan biznes xususiyatlari uchun yagona ma'lumotlarning turli xil ko'rinishini taqdim etadi.


  • Va nihoyat, xizmat qatlami yuqoridagi barcha qatlamlar ustidan nazoratni ta'minlaydi. U biznes ma'lumotlarini o'z ichiga olmaydi, lekin ma'lumotlar sifati bilan ishlash uchun metama'lumotlar va boshqa tuzilmalar bilan ishlaydi, bu ma'lumotlar uchidan uchigacha auditorlik tekshiruvini (ma'lumotlar liniyasi ) amalga oshirishga , o'zgarishlarning deltasini ta'kidlash va yuklashlarni boshqarish uchun umumiy yondashuvlardan foydalanishga imkon beradi. Shuningdek, u xatolarni kuzatish va diagnostika qilish vositalarini taqdim etadi, bu esa muammolarni hal qilishni tezlashtiradi.


Barcha qatlamlar, xizmat ko'rsatish qatlamidan tashqari, doimiy ma'lumotlarni saqlash maydoni va yuklash va o'zgartirish modulidan iborat. Saqlash joylarida ma'lumotlarni o'zgartirish uchun texnik (bufer) jadvallar va iste'molchi kiradigan maqsadli jadvallar mavjud. ETL jarayonlarini yuklash va tekshirilishini qo'llab-quvvatlash uchun maqsadli jadvallar, yadrolar va do'kon peshtaxtalaridagi ma'lumotlar texnik maydonlar (meta-atributlar) bilan belgilanadi [3] . Shuningdek, ular turli xil ob'ektlardan ma'lumotlarni virtual saqlash (saqlashsiz) birlashtirish uchun virtual ma'lumotlar provayderlari qatlamini va maxsus hisobotlarni ajratadilar. Har bir qatlam turli xil saqlash va ma'lumotlarni o'zgartirish texnologiyalari yoki universal mahsulotlar, masalan, SAP NetWeaver Business Warehouse (SAP BW) yordamida amalga oshirilishi mumkin.

Big Data- ning paydo bo'lishi bilan 2010- yillarda e'tibor DWH ko'llarining an'anaviy ma'lumotlaridan ( Data Leyk ) o'tib ketdi. Biroq, quyidagi sabablarga ko'ra ma'lumotlar ko'lini yangi avlod QCD deb hisoblash to'g'ri emas 


  • turli xil maqsadlar - DWH menejerlar, tahlilchilar va boshqa oxirgi biznes foydalanuvchilari tomonidan, ma'lumotlar ko'lidan asosan Data Scientists foydalanadi. Eslatib o'tamiz, Data Leyk tuzilmasiz, deb nomlangan do'konlarni saqlaydi. xom ma'lumotlar: dronlar va kuzatuv kameralaridan olingan videoyozuvlar, transport telemetriyasi, grafik tasvirlar, foydalanuvchi xatti-harakatlari jurnallari, saytlar va axborot tizimlari ko'rsatkichlari, shuningdek, turli xil saqlash formatlariga ega bo'lgan boshqa ma'lumotlar (taqdim etish sxemalari). Ular hali BI tizimidagi kundalik tahlil uchun mos emas, ammo ular Data Scientists tomonidan mashinalarni o'rganish algoritmlaridan foydalangan holda yangi biznes gipotezalarini tezda ishlab chiqish uchun ishlatilishi mumkin [5] ;


  • dizaynga turli xil yondashuvlar . DWH dizayni ma'lumotlar bilan ishlashning mantiqiy mantig'iga asoslangan - normallashtirilgan omborlar uchun uchinchi normal shakl, o'lchamlari bo'lgan omborxonalar uchun yulduz yoki qor parchasi sxemasi [1] . Ma'lumotlar ko'lini loyihalashda Big Data arxitektori va Data Engineer turli xil formatdagi manbalar va qabul qiluvchilarning xilma-xilligini hisobga olgan holda ETL jarayonlariga ko'proq e'tibor berishadi. Va uni to'g'ridan-to'g'ri saqlash masalasi juda sodda tarzda hal qilindi - sizga faqat ölçeklenebilir, xatolarga chidamli va nisbatan arzon fayl tizimi kerak, masalan, HDFS yoki Amazon S3 [5] ;


  • nihoyat, narx - odatda Data Lake , Apache Hadoop bilan byudjet serverlari asosida, qimmat litsenziyalar va kuchli uskunalarsiz, SAP, Oracle, Teradata va boshqalar kabi Data Warehouse sinfining ixtisoslashgan platformalarini loyihalashtirish va sotib olishning katta xarajatlaridan farqli o'laroq quriladi .


Shunday qilib, ma'lumotlar koli QCDdan sezilarli darajada farq qiladi. Biroq, Data Leykni qurishda me'moriy LSA yondashuvidan foydalanish mumkin . Masalan, Tinkoff-Bankdagi ma'lumotlar ko'lining asosi sifatida aynan shunday qatlamli inshoot olindi [6] :


  • RAW darajasida xom ma'lumotlar har xil formatlarda (tsv, csv, xml, syslog, json va boshqalar) saqlanadi;


  • operatsion darajada (ODD, Operatsion Data Definition), xom ma'lumotlar taxminiy relyatsion formatga aylantiriladi;


  • tafsilotlar darajasida (DDS, batafsil ma'lumotlar do'koni) batafsil ma'lumotlarning birlashtirilgan modeli to'planadi;


  • Va nihoyat, MART qatlami ishbilarmon foydalanuvchilar va mashinalarni o'rganish modellari uchun dastur ma'lumotlari marshruti bo'lib xizmat qiladi.


Ushbu misolda tuzilgan katta ma'lumotlar so'rovlari uchun SQL-on- Hadoop sinfidagi mashhur vosita Apache Hive ishlatiladi . Fayllarni saqlashning o'zi Hadoop klasterida Cloudera (CDH) kompaniyasining tijorat tarqatish asosida tashkil etilgan . An'anaviy bank DWH xissa parallel DBMS ustida amalga oshirilmoqda Greenplum [6] . O'z ustida, biz bu qo'shishingiz Cloudera Impala harakat mumkin Apache muqobil sifatida Xiva kabi, Greenplum , Arenadata JB va Teradata, bir xissa parallel me'morchiligi asoslangan. Biroq, uyani tanlash yuqori nosozliklarga bardoshlik va yuqori ish unumdorligi zarur bo'lsa, oqlanadi. Biz bu erda Apache Hive va Cloudera Impala o'rtasidagi o'xshashlik va farqlar haqida ko'proq gaplashdik . Tinkoff Bank ishiga qaytsak, BI vositalari ko'l va klassik DWH ma'lumotlarini o'qiydi, odatda OLAP hisobotlarini Big Data omboridagi ma'lumotlar bilan boyitadi . Bu qiziqishlarni tahlil qilish, xatti-harakatlarni bashorat qilish va bank veb-saytiga tashrif buyuruvchilar orasida paydo bo'ladigan hozirgi va kelajakdagi ehtiyojlarni aniqlash uchun ishlatiladi.

Ko'pchiligingiz bilasizki, inventarizatsiya tizimi uchun 3NF tomonidan yaratilgan ma'lumotlar bazasida ko'pchilik bir-biriga bog'liq jadvallar mavjud. Masalan, joriy inventarizatsiya ma'lumotlari to'g'risidagi hisobot 12 dan ortiq qo'shilgan shartlarni o'z ichiga olishi mumkin. Bu so'rov va hisobotning javob vaqtini tezda sekinlashtirishi mumkin. Ma'lumotlar ombori javob berish vaqtini qisqartirishga yordam beradigan va hisobotlar va tahlillar uchun so'rovlarning ishlashini yaxshilashga yordam beradigan yangi dizaynni taqdim etadi.

Download 2,76 Mb.
1   2   3   4   5   6   7   8   9   ...   80




Download 2,76 Mb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Ma’lumotlar ombori tushunchasi va uni tashkil etuvchilari. Ma’lumotlar ombori haqida tushuncha

Download 2,76 Mb.