|
Katta ma’lumotlarga ishlov berishning bazaviy prinsipi
|
bet | 38/48 | Sana | 13.05.2024 | Hajmi | 0,53 Mb. | | #230247 |
Bog'liq Документ Microsoft Word (2)Katta ma’lumotlarga ishlov berishning bazaviy prinsipi.
Ma’lumotlarga ishlov berishni ta’minlovchi gorizontal masshtablashtirish - katta ma’lumotlarga ishlov berishning bazaviy prinsipi. Ma’lumotlar xisoblash tugunlariga taqsimlangan, ishlov berish esa ishlab chiqaruvchanlikning gradatsiyasiz amalga oshiriladi.
Texnologiyalar:
• NoSQL
• MapReduce
• Hadoop
• Apparatli yechim
3.9-rasm. Big data texnologiyalari
Katta ma’lumotlar uchun «Uch V» deb nomlanuvchi an’anaviy aniqlovchi xarakteristikalarni ajratish mumkin.
• Volume — fizik xajmning kattaligi.
• Velocity — natijalarni olish uchun tezlikning oshishi va tezkor ishlov berishning tezligi.
• Variety — turli tipdagi ma’lumotlarga bir vaqtda ishlov berish imkoniyati.
Turli ma’lumotlar hajmi va tez kelib tushadigan sonli axborotlarga an’anaviy instrumentlar bilan ishlov berish imkoniga ega emas. Ma’lumotlar tahlilining oʻzi inson koʻra olmaydigan aniq va sezilmas qonuniyatlarni koʻrish imkonini beradi. Bu bizning hayotimizda barcha sohalarni – davlat boshqaruvidan to ishlab chiqarish va tekommunikatsiyalarning optimallashtirish imkonini beradi.
Big data marketingni
Big data orqali marketologlar nafaqat ishlarida koʻmaklashadigan, balki natijalarni prognozlaydigan instrumentga ega boʻldilar. Masalan: Ma’lumotlar tahlili yordamida RTB- auksion modeliga asoslanib faqatgina maslahatga qiziqtira olgan auditoriyani reklamasini chiqarish mumkin.
Big data marketaloglarga oʻzlarining iste’molchilarini bilish va maqsadli yangi auditoriyani jalb etish, mijozlarning qoniqganligini baholash, mijozlarni koʻpaytirishni yangi usullarini qoʻllash va talabga ega boʻlgan loyihalarni amalga oshirish.
Big data dunyoni oʻzgartiradimi?
Texnologiyalardan qocholmaymiz va berkina olmaymiz. Big data sekin asta bizning shaharlarimizga, uylarga, xonadonlarga va gadjetlarga, kirib borib dunyoni oʻzgartirmoqda. Texnologiya qanday tezlikda planetani qamrab olishini aytish murakkab.
3.10-rasm. Big datani rivojlanish davri
Koʻplab BigData instrumentlari mavjud. Ulardan eng mashhurlarini koʻrib chiqamiz.
NoSQL (faqat SQL emas), informatikada – ma’lumotlar bazasi omborini amalga oshirishga yoʻnaltirilgan, ma’lumotlarga SQL tili vositalari yordamida kirish huquqi mavjud boʻlgan an’anaviy relyatsion MBBTlarda foydalaniladigan modellardan sezilarli darajada farq qiluvchi bir qator yondashuvlarni anglatuvchi termin. An’anaviy MBBTlar tranzaksion tizimdan ACIDni talab etishiga moʻljallanadi: atomarlik (atomicity), muvofiqlik (consistency), ajratilganlik (isolation), ishonchlilik (durability). NoSQLda esa ACID oʻrniga BASE xossalar toʻplami koʻrib chiqilishi mumkin:
• bazaviy foydalanuvchanlik (Basic avalaibility) – har bir soʻrovning tugallanishi kafolatlanadi (muvaffaqiyatli yoki muvaffaqiyatsiz).
• moslashuvchan holat (softstate) – ma’lumotlarning muvofiqligiga erishish uchun yangi ma’lumotlar kiritilmasa ham tizimning holati vaqt oʻtishi bilan oʻzgarishi mumkin.
• oxir oqibat muvofiqlik (eventualconsistency) – ma’lumotlar ma’lum vaqt nomuvofiq boʻlishi mumkin, ammo ma’lum vaqtdan soʻng muvofiqlashadi.
“BASE” termini SAP teoremasi muallifi Erik Bryurer tomonidan taklif etilgan. Bu teoremaga koʻra taqsimlangan hisoblashlarda uchta xossadan faqat ikkitasini ta’minlash mumkin: ma’lumotlar muvofiqligi, foydalanuvchanlik yoki boʻlinishga chidamlilik. Tabiiyki, BASE asosidagi tizimlardan ixtiyoriy ilovalarda foydalanish mumkin emas: birjaviy va bank tizimlari ishlashi uchun tranzaksiyalardan foydalanish zarur hisoblanadi. Shu bilan bir vaqtda, ACID xossalari qanchalik istalgan boʻlmasin, amazon.com kabi koʻp millionlab veb-auditoriya ega boʻlgan tizimlarda ta’minlashning deyarli ilojisi yoʻq. Shu tariqa, NoSQL-tizimlar loyihalovchilari ma’lumotlar muvofiqligini SAP teoremasiga koʻra qolgan ikki xossani ta’minlash uchun qurbon qiladi. Ba’zi MBBTlar, masalan, Riak, hatto alohida soʻrovlar uchun ham, tranzaksiyani muvaffaqiyatli tasdiqlash uchun zarur boʻlgan tugunlar sonini belgilash yoʻli bilan talab etilayotgan foydalanuvchanlik-muvofiqlik xarakteristikalarini sozlash imkoniyatini beradi. NoSQL yechimlari faqat masshtablashuvni hisobga olgan holda loyihalashtirilishi bilan farqlanmaydi. NoSQL-yechimlarning boshqa oʻziga xos xususiyatlari quyidagilar hisoblanadi:
• Turli tipdagi omborxonalarning qoʻllanilishi.
• Chizmasini keltirmagan holda ma’lumotlar bazasini ishlab chiqa olish imkoniyati.
• Koʻp protsessorlilikdan foydalanish.
•Chiziqli masshtablanuvchanlik (protsessorlarni qoʻshish mahsuldorlikni oshiradi).
• Innovatsionlik: «faqat SQL emas» ma’lumotlarni saqlash va qayta ishlash uchun koʻp imkoniyatlar ochadi.
• Ishlab chiqish vaqtini qisqarishi.
• Tezlik: hatto ma’lumotlar kam boʻlganda ham oxirgi foydalanuvchilar tizimning javob qaytarish vaqtining yuz millisekunddan millisekundgacha kamayishini baholashlari mumkin[1].
Hadoop BigDataning asos boʻluvchi texnologiyalaridan biri hisoblanadi[2]. Ishlanmani Nutch loyihasi- Javada ishlovchi erkin dasturiy qidiruv mashinasi uchun taqsimlangan hisoblashlarning dasturiy infrastrukturasini qurish maqsadida Dug Katting (Doug Cutting) 2005-yilning boshida boshlagan. Google hodimlari Djeffri Din va Sanjay Gemavatlarning MapReduce hisoblash konsepsiyasi haqida chop etilgan ishi Netch loyihasining gʻoyaviy asosi boʻldi. Yangi loyiha loyihaning asoschisi farzandining oʻyinchoq fili sharafiga nomlangan[3]. Hadoop texnologiyasi kompyuter klasterlari yordamida, paradigmadan foydalangan holda ma’lumotlarni saqlash va qayta ishlash imkoniyatini beruvchi dasturiy freymvorkdan iborat.
MapReduce. MapReduce – bu ba’zi taqsimlangan topshiriqlar toʻplami klasterini tashkil etuvchi (“nodlar” deb ataluvchi) koʻp sonli kompyuterlardan foydalangan holda hisoblashlar uchun freymvork. MapReduce ishi ikki qadamdan tashkil topadi: Map va Reduce. Map - qadamda kiruvchi ma’lumotlarga dastlabki ishlov berish amalga oshiriladi. Buning uchun (asosiy tugun deb ataluvchi - masternode) kompyuterlardan biri topshiriqning kiruvchi ma’lumotlarini oladi, ularni qismlarga boʻladi va dastlabki ishlov berish uchun (ishchi tugunlar-workenode) boshqa kompyuterlarga uzatadi. Bu qadamning nomi shunday nomlangan yuqori tartibdagi funksiyadan olingan[4] Reduce- qadamda dastlabki ishlov berilgan ma’lumotlarni yigʻilishi amalga oshiriladi. Asosiy tugun ishchi tugunlardan javoblarni oladi va shular asosida natijani- avvaldan ifodalangan topshiriqning yechimini shakllantiradi.
Bu yondashuv low-end yoki middle-end serverlar asosida yuqori mahsuldor klaster qurish imkonini beradi. Bu esa bitta yuqori mahsuldor serverga nisbatan sezilarli darajada past narxdagi yechimni ta’minlaydi.
Yana bir mashhur instrument SAP HANA (High-Performance Analytics Appliance) hisoblanadi[5]. Bu ma’lumotlarni saqlash va qayta ishlash uchun yuqori mahsuldor NewSQL platforma boʻlib, uning asosida SAP SE kompaniyasi tomonidan ishlab chiqilgan va bozorga olib chiqilgan platformadan, ma’lumotlarni ustun - ustun qilib saqlash prinsipidan foydalanuvchi In-Memory Data Grid (IMDG) (sekin ishlovchi disk tizimostisiga murojaat qilmagan holda butun MBni tezkor xotiraga joylashtirish va shu yerda qayta ishlash qobiliyati) hisoblash texnologiyasi yotadi. HANA arxitekturasi tranzaksiyalarni tezkor qayta ishlash bilan birga murakkab analitik soʻrovlar bilan ishlashni ham ta’minlab, bu topshiriqlar yechimlarini yagona platforma doirasida birlashtiradi[6]. Bu MBda barcha ma’lumotlar tezkor xotirada ustun – ustun qilingan va siqilgan holda saqlanadi. Chunki hamma operatsiyalar ham diskga murojaat qilishni talab qilmaydi va juda tez bajariladi, indekslarga, moddiylashtirilgan tasavvurlarga, oldindan hisoblanuvchi summalar va boshqa agregatlarga ehtiyoj yoʻqoladi, bu esa an’anaviy tizimlarga nisbatan MB hajmini 95% ga kamaytirish imkonini beradi. Tranzaksion va analitik ilovalar bir vaqtning oʻzida MBning bitta nusxasida ishlashi mumkin. SAP MBning ustun-ustun qilib saqlash bilan parallelizmni qoʻllab-quvvatlash (Multiversion Consurrence Control mexanizmlari yordamida) va qoʻyish hamda yangilash operatsiyalarining mahsuldorligi kabi asosiy muammolarini yechishga erishdi. HANA geoaxborot va matn ma’lumotlarni qayta ishlash, OLAP, graflar tahlili va boshqalar kabi MBning bir qator qoʻshimcha xizmatlarini taqdim etadi.
Data-sentr turli kompaniyalarning joylashtirilgan yuqori texnologik qoʻriqlanuvchi maydondir. Oddiy qilib aytganda data-sentr – bu oʻzgacha “serverlar uyi”. Data-sentr Xalqaro aloqalarni amalga oshirish uchun maxsus ximoyalangan kanallarni taqdim etadi. Data-sentr kafolatli xavfsizligi, ximoyalanganligi, xamda maksimal tezligi xozirgi vaqtda jaxon bozorida tijoratli talabga ega.
3.11-rasm. Google kompaniyasining data sentri.
|
| |