Reja: Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari




Download 1.36 Mb.
bet5/9
Sana21.02.2024
Hajmi1.36 Mb.
#160165
1   2   3   4   5   6   7   8   9
Bog'liq
Reja Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish
Документ Microsoft Word
Katta ma’lumotlar tahlili
Vaqt o’tishi bilan kompyuter dasturlari har xilligi bilan real dunyoga yaqinlashmoqda, shu sababli kirish ma’lumotlari hajmi ortib bormoqda va shu sababli ularning analitiklariga ehtiyoj sezilmoqda va real vaqt rejimiga iloji boricha yaqinroq rejimda. Ushbu ikki tendentsiyaning yaqinlashishi yo’nalishning paydo bo’lishiga olib keldi big Data analitikasi (Big Data Analytics). Watson kompyuterining g’alabasi Big Data Analytics imkoniyatlarining yorqin namoyishi bo’ldi - biz kompyuter birinchi marta hisob-kitoblarni tezlashtirish vositasi sifatida emas, balki ma’lumot tanlash va qaror qabul qilishda inson imkoniyatlarini kengaytiruvchi yordamchi sifatida foydalaniladigan qiziqarli davrga kirmoqdamiz. Vannevar Bush, Jozef Liklider va Dag Engelbartning utopik tuyulgan g’oyalari ro’yobga chiqa boshladi, ammo bu bir necha o’n yillar oldin sodir bo’lganidek amalga oshmayapti - kompyuterning kuchi mantiqiy imkoniyatlari jihatidan odamlarga nisbatan ustunlikda emas, olimlar ayniqsa umidvor bo’lishgan, ammo juda katta qobiliyat juda katta miqdordagi ma’lumotlarni qayta ishlash. Xuddi shunga o’xshash narsa Garri Kasparovning Deep Blue bilan to’qnashuvida sodir bo’ldi, kompyuter mahoratli o’yinchi emas edi, lekin u tezroq ko’proq imkoniyatlardan foydalanishi mumkin edi. Big Data Analytics-ni boshqa dasturlardan ajratib turadigan yuqori tezlik bilan birlashtirilgan ulkan hajmlar to’g’ri kompyuterlarni talab qiladi va bugungi kunda deyarli barcha yirik ishlab chiqaruvchilar ixtisoslashtirilgan dasturiy ta’minot va apparat tizimlarini taklif qilishadi: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine va Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform powered by HP Converged Infrastructure. Bundan tashqari, ko’plab kichik va boshlang’ich kompaniyalar o’yinga kirishdi: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.
Big datada qayta aloqa va komponentlar. Big datada asosiy etkazib
beruvchilar va yangi imkoniyatlar
Sifatida yangi Big Data Analytics dasturlari nafaqat yangi texnologiyalarni, balki tizimning turli darajadagi fikrlash darajasini ham talab qiladi, ammo bu bilan qiyinchiliklar mavjud - Big Data Analytics echimlarini ishlab chiquvchilar ko’pincha 50-yillardan beri ma’lum bo’lgan haqiqatlarni qayta kashf etadilar. Natijada, tahlil ko’pincha odamga natijalar berish uchun dastlabki ma’lumotlarni, vizualizatsiya va boshqa texnologiyalarni tayyorlash vositalaridan ajratib olinadi. Ma’lumotlarni saqlash ombori instituti singari nufuzli tashkilot ham analitikni hamma narsadan ajratib ko’rib chiqadi: uning ma’lumotlariga ko’ra, korxonalarning 38 foizi menejment amaliyotida Advanced Analytics-dan foydalanish imkoniyatlarini o’rganib chiqishmoqda va yana 50 foizi kelgusi uch yil ichida buni amalga oshirish niyatida. Ushbu qiziqish biznesdan ko’plab dalillarni keltirib chiqarish bilan oqlanadi, garchi buni osonroq deyish mumkin bo’lsa - yangi sharoitda korxonalar yanada mukammal boshqaruv tizimiga muhtoj va uni yaratish qayta aloqa o’rnatishdan, ya’ni qaror qabul qilishga yordam beradigan tizimdan boshlanishi kerak va kelajakda, ehtimol haqiqiy qaror qabul qilishni avtomatlashtirish mumkin bo’ladi. Ajablanarlisi shundaki, aytilganlarning barchasi 60-yillardan beri ma’lum bo’lgan texnologik ob'ektlarni avtomatlashtirilgan boshqarish tizimlarini yaratish metodologiyasiga mos keladi. Yangi tahlil vositalari talab qilinadi, chunki avvalgidan ko’ra ko’proq ma’lumotlar emas, balki ularning tashqi va ichki manbalari ko’proq, endi ular ancha murakkab va xilma-xildir (tuzilgan, tuzilmasiz va kvaziturumli), indekslashning turli sxemalaridan foydalaniladi (relyatsion, ko’p o’lchovli, noSQL). Ma’lumotlar bilan eski usullar bilan kurashish endi mumkin emas - Big Data Analytics katta va murakkab massivlarga tarqaladi, shuning uchun ular Discovery Analytics (kashfiyotlar analitikasi) va Explorator Analytics (tushuntirishli analitik) atamalaridan ham foydalanadilar. Siz nima deb atasangiz ham, mohiyati bir xil - teskari aloqa, qaror qabul qiluvchilarni har xil jarayonlar haqida ma’lumot bilan maqbul shaklda ta’minlaydi.
Xom ma’lumotlarni yig’ish uchun mos keladigan apparat va dasturiy texnologiyalar qo’llaniladi, bu aniq boshqarish ob'ektining xususiyatiga bog’liq (RFID, ijtimoiy tarmoqlardan olingan ma’lumotlar, turli xil matnli hujjatlar va boshqalar). Ushbu ma’lumotlar analitik dvigatelning kirish qismiga beriladi (agar biz kibernetika bilan o’xshashlikni davom ettirsak, teskari aloqa tizimidagi regulyator). Ushbu regulyator analitik dasturiy ta’minotning o’zi ishlaydigan apparat va dasturiy platformaga asoslangan bo’lib, u avtomatik boshqarish uchun etarli bo’lgan boshqarish harakatlarini ta’minlamaydi, shuning uchun ma’lumotlar olimlari yoki ma’lumotlar muhandislari ushbu tsiklga kiritilgan. Ularning funktsiyasini, masalan, elektr mashinalarini qurish uchun fizikadan olgan bilimlaridan foydalangan holda elektr muhandislari o’ynagan rol bilan taqqoslash mumkin. Muhandislarning vazifasi ma’lumotni qaror qabul qilish uchun ishlatiladigan ma’lumotga aylantirish jarayonini boshqarishdir - ular qayta aloqa tizimini ham to’ldirishadi. Big Data Analytics-ning to’rtta tarkibiy qismidan bizni faqat bitta - dasturiy va apparat platformasi qiziqtiradi (ushbu turdagi tizimlar Analytic Appliance yoki Data Warehouse Appliance deb nomlanadi).
Bir necha yillar davomida Teradata ixtisoslashgan analitik mashinalarning yagona ishlab chiqaruvchisi edi, ammo bu birinchi emas - 70-yillarning oxirlarida, o’sha paytdagi ingliz kompyuter sanoatining etakchisi ICL Tarkibga yo’naltirilgan ma’lumotlar do’konini yaratish uchun juda muvaffaqiyatli urinish qilmadi. bu DBMS IDMS-ga asoslangan edi. Ammo Britton-Li birinchi bo’lib Zilog Z80 protsessorlar oilasining ko’p protsessorli konfiguratsiyasi asosida 1983 yilda "ma’lumotlar bazasi dvigatelini" yaratdi. Keyinchalik Britton-Lini Teradata sotib oldi, u 1984 yildan beri qarorlarni qo’llab-quvvatlash tizimlari va ma’lumotlar omborlari uchun MPP kompyuterlarini ishlab chiqardi. Va bunday komplekslarni etkazib beruvchilarning yangi avlodining birinchi vakili Netezza edi - uning Netezza Performance Server echimida standart pichoq serverlari ixtisoslashtirilgan Snippet Processing Unit pichoqlari bilan birgalikda ishlatilgan.
Analitika birinchi o’rinda turadi bashorat, yoki bashorat qiluvchi (Bashoratli tahlil, RA). Amaldagi dasturlarning aksariyatida RA tizimlari uchun dastlabki ma’lumotlar ma’lumotlar omborlarida ilgari to’plangan ma’lumotlardir. Tahlil qilish uchun ma’lumotlar dastlab qidiruv ma’lumotlar martiga (IDM) ko’chiriladi, bu erda ma’lumotlar taqdimoti uni ishlatadigan dasturlarga bog’liq emas, so’ngra xuddi shu ma’lumotlar ixtisoslashgan analitik martga (ADM) o’tkaziladi va mutaxassislar allaqachon ular bilan ishlaydi turli xil ishlab chiqish vositalari yoki ma’lumotlar qazib olish (Data Mining) yordamida. Bunday ko’p bosqichli model nisbatan kam miqdordagi ma’lumotlar uchun juda maqbuldir, ammo ularning ko’payishi va bunday modellarda samaradorlikka bo’lgan talablarning ortishi bilan bir qator kamchiliklar aniqlanadi. Ma’lumotlarni ko’chirish zarurligidan tashqari, ko’plab mustaqil ADMlarning mavjudligi jismoniy va mantiqiy infratuzilmaning murakkablashishiga olib keladi, foydalaniladigan modellashtirish vositalari soni ko’payib bormoqda, turli tahlilchilar tomonidan olingan natijalar bir-biriga mos kelmaydi, hisoblash quvvati va kanallari maqbul darajada ishlatilishidan yiroq. Bundan tashqari, omborlar va ADM-ning alohida mavjudligi analitikani real vaqtga deyarli imkonsiz qiladi. Chiqish usuli ma’lumotlar bazasida to’g’ridan-to’g’ri ma’lumotlar bazasidan analitik maqsadlarda foydalanishni nazarda tutadigan In-Database Analytics yoki No-Copy Analytics deb nomlangan yondashuv bo’lishi mumkin. Bunday DBMSlarni ba’zan analitik va parallel deb ham atashadi. MapReduce va Hadoop texnologiyalarining paydo bo’lishi bilan yondashuv ayniqsa jozibador bo’lib qoldi. In-Database Analytics sinfining yangi avlod dasturlarida ma’lumotlar muhandisligining barcha turlari va boshqa intensiv ish turlari to’g’ridan-to’g’ri omborda joylashgan ma’lumotlar ustida amalga oshiriladi. Shubhasiz, bu jarayonlarni sezilarli darajada tezlashtiradi va naqshlarni tanib olish, klasterlash, regressiya tahlili va har xil bashorat qilish kabi real vaqtda dasturlarga imkon beradi. Akseleratsiyaga nafaqat omborxonadan do’kon peshtaxtalariga o’tishdan xalos bo’lish hisobiga, balki asosan har xil parallellashtirish usullaridan, shu jumladan cheksiz miqyosli klaster tizimlaridan foydalanish hisobiga erishiladi. In-Database Analytics kabi echimlar analitik dasturlarda bulutli texnologiyalardan foydalanish imkoniyatini ochib beradi. Keyingi qadam SAP HANA (High Performance Analytic Appliance) texnologiyasi bo’lishi mumkin, uning mohiyati RAM uchun tahlil qilish uchun ma’lumotlarni joylashtirishdir.
Ma’lumotlar bazasi tahlillari uchun 2010 yilga kelib Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL) , Oracle (Oracle ma’lumotlar bazasi 11g / 10g, Oracle Exadata), SenSage (SenSage / columnar), Sybase (Sybase IQ), Teradata and Vertica Systems (Vertica Analytic Database). Bularning barchasi taniqli kompaniyalardir, Silikon vodiysining SenSage startapi bundan mustasno. Mahsulotlar ular ishlashi mumkin bo’lgan ma’lumotlar turi, funktsional imkoniyatlari, interfeyslari, foydalanadigan analitik dasturiy ta’minoti va bulutlarda ishlash qobiliyatlari bilan sezilarli darajada farq qiladi. Teradata eritmaning etukligi bo’yicha etakchi, Aster Data esa avangardda. Analitik dasturiy ta’minot sotuvchilarining ro’yxati qisqaroq - KXEN, SAS, SPSS va TIBCO mahsulotlari mahalliy konfiguratsiyalarda ishlashi mumkin, Amazon, Cascading, Google, Yahoo! va Cloudera. 2010 yil IBM Cognos, SAP Business Object va Oracle Hyperion kompaniyalarini sotib olgan 2007 yilga taqqoslanadigan prognozli tahlilda muhim yil bo’ldi. Bularning barchasi EMC Greenplum-ni sotib olishdan, keyin IBM-dan Netezza-ni, HP-dan Vertica-ni, Teradata-dan Aster Data-ni va SAP-dan Sybase-ni sotib olishdan boshlandi.
Analitik paradigma yangi imkoniyatlarni ochib beradi, buni ParStream (rasmiy nomi empulse GmbH) kompaniyasini yaratgan Kölnning ikkita muhandisi muvaffaqiyatli isbotladi. Ular birgalikda umumiy maqsadlar uchun ham, GPU protsessorlari asosida ham o’zlarining oldingilari bilan raqobatlashadigan tahliliy platforma yaratishga muvaffaq bo’lishdi. To’rt yil oldin, ilgari "Accenture" da ishlagan Maykl Xummepl va Yorg Binert nemis sayyohlik kompaniyasidan buyurtma olishdi, bu 100 millisekundada 6 milliard yozuvlar bazasidan 20 parametrli yozuvni tanlashi mumkin bo’lgan turlar yaratish tizimiga muhtoj edi. Mavjud echimlarning hech biri bunday vazifani uddalay olmaydi, ammo juda katta ma’lumotlar bazalari tarkibini onlayn tahlil qilish zarur bo’lgan joyda ham shunga o’xshash muammolar yuzaga keladi. ParStream HPC texnologiyalarini Big Data Analytics-ga qo’llash shartlaridan kelib chiqqan. Hümmepl va Binert ma’lumotlar oqimlarini parallel oqimlar shaklida qo’llab-quvvatlaydigan x86-arxitektura klasterida ishlashga mo’ljallangan o’zlarining ma’lumotlar bazalari dvigatellarini yozishni boshladilar, shuning uchun ParStream nomi berildi. Dastlabki o’rnatish sifatida ular faqat tuzilgan ma’lumotlar bilan ishlashni tanladilar, bu aslida nisbatan sodda parallellashtirish imkoniyatini ochadi. Dizayn jihatidan ushbu ma’lumotlar bazasi MapReduce yoki Hadoop-ga qaraganda yangi Google Dremel loyihasiga yaqinroq bo’lib, ular real vaqtda so’rovlarga moslashtirilmagan. X86 / Linux platformasidan boshlab, Gummepl va Binert ko’p o’tmay ularning ma’lumotlar bazasini nVidia Fermi GPUlari ham qo’llab-quvvatlashi mumkinligiga amin bo’lishdi.



Download 1.36 Mb.
1   2   3   4   5   6   7   8   9




Download 1.36 Mb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Reja: Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish tizimlari

Download 1.36 Mb.