Data science va Hadoop

Download 3.59 Mb.
bet	1/2
Sana	14.03.2024
Hajmi	3.59 Mb.
	#171470

1 2

Bog'liq
2-mavzu. Data science va Hadoop (2)
MTA Majmua(2021), 1, 4-Karno kartadan foydalanib mantiqiy ifodalarni minimallash, Kalendar reja algoritm, Ishchi dastur(Dasturlash I) 24.11.2021, 1 -amaliyot, 4-Lab, Yurtimiz mustaqillikga erishishidan oldin milliy urf odat, 7-8-mavzuDT larni sertifikatlashtirish, Axborotlarni izlash va ajratib olish fanidan mustaqil ish Mavzu, Abdulla Oripov O\'zbekiston (qasida), 2 lab Yarashov Diyorbek, TATU NF Hemis axborot tizimi, Algo 1-299, prezentatsiya

data science
va Hadoop
Hozirgi kunda katta ma'lumotlar uchun juda ko'p turli xil vositalar va infratuzilmalar mavjud. Yangi texnologiyalar juda tez paydo bo'lishi e’tiboridan buni chalkashtirib yuborish oson. Katta ma'lumotlar ekotizimini o'xshash maqsadlar va funksionallikka ega bo'lgan texnologiyalar guruhlariga bo'lish mumkinligidan, vaziyat ancha soddalashtiriladi. Data science bilan ishlovchilar juda ko'p turli xil texnologiyalardan foydalanadilar.

Jupyter Notebook: Jupyter - bu turli dasturlash tillarida, jumladan Python va Rda kod yozish va ishga tushirish imkonini beruvchi interaktiv muhit. U mahalliy kompyuteringizda kichik ma'lumotlar to'plamlarini tahlil qilish uchun ishlatilishi mumkin.
Python with libraries: Siz kompyuteringizdagi ma'lumotlarni tahlil qilish va qayta ishlash uchun Python-dan pandas, NumPy va scikit-learn kabi kutubxonalar bilan foydalanishingiz mumkin. Ushbu kutubxonalar kichik va o'rta hajmdagi ma'lumotlar bilan ishlash uchun juda mos keladi.
R va RStudio: R statistik ma'lumotlarni tahlil qilish uchun til va muhitdir. Kompyuteringizdagi ma'lumotlarni tahlil qilish uchun R va RStudio dan foydalanishingiz mumkin. Shuningdek, u dplyr va data.table kabi paketlar va vositalar orqali katta ma'lumotlarni qo'llab-quvvatlaydi.
SQLite: SQLite - bu mahalliy kompyuteringizda osongina ishlatilishi mumkin bo'lgan ixcham ma'lumotlar bazasi. U kichik hajmdagi ma'lumotlarni saqlash va qayta ishlash uchun juda mos keladi.
RapidMiner: RapidMiner - bu mahalliy kompyuteringizga o'rnatilishi mumkin bo'lgan ma'lumotlarni tahlil qilish va mashinani o'rganish platformasi. U ma'lumotlarni qayta ishlash va mashinani o'rganish modellarini yaratish uchun vositalarni taqdim etadi.
Tableau Public: Tableau Public - bu mahalliy kompyuteringizda interaktiv grafiklar va asboblar paneli yaratish uchun foydalanishingiz mumkin bo'lgan bepul ma'lumotlarni vizualizatsiya qilish vositasi.
Microsoft Excel: Excel asosiy ma'lumotlarni tahlil qilish va mahalliy kompyuteringizda oddiy hisobotlarni yaratish uchun ishlatilishi mumkin. U kichik hajmdagi ma'lumotlar bilan ishlashni qo'llab-quvvatlaydi.

Amazon veb-xizmatlari (AWS):

Amazon EMR: Bu Hadoop, Spark va boshqa ramkalar yordamida katta ma'lumotlarni qayta ishlash va tahlil qilish uchun boshqariladigan xizmatdir.
Amazon Redshift: real vaqtda ma'lumotlarni tahlil qilish va tuzilgan formatlarda ma'lumotlarni qayta ishlashni ta'minlaydi.

Google Cloud Platform (GCP):

Google BigQuery: Bu bulutga asoslangan maʼlumotlar ombori va analitik vosita boʻlib, katta hajmdagi maʼlumotlarni soʻrash uchun tezkor SQL yondashuvini taʼminlaydi.
Google Cloud Dataflow: Oqimli va ommaviy maʼlumotlar tahlillarini yaratish imkonini beradi.

Microsoft Azure:

Azure HDInsight: Hadoop va Spark kabi ramkalar yordamida taqsimlangan hisoblash va katta ma'lumotlar tahlilini qo'llab-quvvatlaydi.
Azure Data Lake Analytics: Ma'lumotlar tahlili uchun kengaytiriladigan hisoblash resurslarini taqdim etadi.

IBM Cloud:

IBM Watson Studio: Katta hajmdagi ma'lumotlarni qayta ishlash vositalarini taqdim etadigan ma'lumotlar tahlili va mashinani o'rganish platformasi.
IBM Db2 on Cloud: tuzilgan ma'lumotlarni saqlash va tahlil qilish uchun bulutli ma'lumotlar bazasi.

Alibaba buluti:

MaxCompute: real vaqt rejimida ma'lumotlarni tahlil qilish va qayta ishlash vositalarini taqdim etadigan katta ma'lumotlarni qayta ishlash uchun bulutli xizmat.

Databricks: Bu Apache Spark ustiga qurilgan bulutli platforma boʻlib, bulutda maʼlumotlar tahlilini taʼminlaydi.
Snowflake: Bu ma'lumotlarni tahlil qilish va ma'lumotlarni tuzilgan formatlarda saqlashga ixtisoslashgan bulutli ma'lumotlar bazasi.

katta ma'lumotlar ekotizimining tarkibiy qismlari va bu tuzilmadagi turli texnologiyalarning o'rni
Taqsimlangan fayl tizimlari.
Taqsimlangan fayl tizimi oddiy fayl tizimiga o'xshaydi, lekin undan farqli o'laroq, u bir vaqtning o'zida bir nechta serverlarda ishlaydi. Oddiy fayl tizimlarida bajarilishi mumkin bo'lgan deyarli hamma amallarni bajara oladi
Taqsimlangan fayl tizimlari bir qator muhim afzalliklarga ega:

Ular bitta kompyuterning disk hajmidan kattaroq hajmli fayllarni saqlashga qodir.
Foydalanuvchidan barcha texnik murakkabliklarni yashirgan holda, parallel operatsiyalarni bajarish uchun fayllar avtomatik ravishda bir nechta serverlarda takrorlanadi.
Tizim osonlik bilan kengaytirilishi mumkin: foydalanuvchi xotira yoki bitta serverning disk maydoni bilan cheklanmaydi.

Taqsimlangan dasturlash infratuzilmasi.
Ma'lumotlar taqsimlangan fayl tizimida saqlanganidan keyin uni ishlatish kerak. Taqsimlangan qattiq disk bilan ishlashning muhim jihatlaridan biri shundaki, ma'lumotlarni dasturga ko'chirib emas, balki dasturni ma'lumotlarga o'tkazish bajariladi.
Ma'lumotlar integratsiyasi infratuzilmasi
Taqsimlangan fayl tizimini yaratgandan so'ng, ma'lumotlarni qo'shish kerak. Ma'lumotlarni bir manbadan boshqasiga ko'chirish kerak; Bu yerda Apache Sqoop va Apache Flume kabi ma'lumotlar integratsiya tizimlarining afzalliklari mos keladi. Jarayon an'anaviy ma'lumotlar omborlarida tadqiq qilish, o'zgartirish va yuklash jarayoniga o'xshaydi
Mashinani o'rganish infratuzilmalari.
Ma'lumotlar o'z o'rnida bo'lsa, yashirin ma'lumotlarni olish lozim. Bu bosqichda mashinani o'rganish, statistika va amaliy matematika sohalaridagi usullardan foydalanish kerak
Zamonaviy ma'lumotlarning katta hajmlari bilan bitta kompyuter bunday katta yukni ko’tara olmaydi. Bunda tashqari, o'tgan asrda ishlab chiqilgan ba'zi algoritmlar, hatto yer yuzidagi barcha kompyuterlarning hisoblash resurslari bir joyda bo'lsa ham, 1000 yilgacha tugallanmagan bo'lardi. Bu fakt ularning vaqt murakkabligi bilan bog'liq (https://en.wikipedia.org/wiki/Time_complexity). Bunday algoritmga misol qilib, barcha mumkin bo'lgan kombinatsiyalarni tekshirish orqali parolni buzishga urinishni keltirish mumkin.
NoSQL ma'lumotlar bazalari.
Katta hajmdagi ma'lumotlarni saqlash ushbu ma'lumotlarni boshqarish va so’rovlar yaratishga ixtisoslashgan dasturiy ta'minotni talab qiladi. Odatda, bu sohada Oracle SQL, MySQL, Sybase IQ va boshqalar kabi relyatsion ma'lumotlar bazalari ustunlik qiladi
Ma'lumotlar bazalarining ko'p turlari mavjud, ammo ularni quyidagi turlarga bo'lish mumkin:

Ustunli ma'lumotlar bazalari ma'lumotlarni ustunlarga ajratadi, bu esa algoritmlarga so'rovlarni qayta ishlash tezligini sezilarli darajada oshirish imkonini beradi.
Hujjat saqlovchilar - hujjatlar saqlovchilari jadvallardan foydalanmaydi, lekin hujjat haqida to'liq ma'lumotni saqlaydi. Ularning o'ziga xos xususiyati juda moslashuvchan ma'lumotlar sxemasi.
Oqimli ma’lumotlar - ma'lumotlarni o'zgartirish va yig'ish paketli emas, balki real vaqt rejimida amalga oshiriladi. Uskuna tanlashni osonlashtirish uchun oqim ma'lumotlarini ma'lumotlar bazasi sifatida tasniflagan bo'lsak-da, bu Storm kabi texnologiyalarni keltirib chiqaradigan maxsus turdagi muammoni tashkil etishi ehtimoli katta.

“Kalit-qiymat” shaklida saqlovchilar - Ma'lumotlar jadvallarda saqlanmaydi; har biri bilan kalit qiymat bilan bog'langan: masalan, org.marketing.sales.2015: 20000. Bunday yechim yaxshi miqyosda, lekin amalga oshirish deyarli butunlay ishlab chiquvchiga topshiriladi.
Hadoopdagi SQL - Hadoop-dagi ommaviy so'rovlar SQL-ga o'xshash tilda yozilgan bo'lib, uning ichki amalga oshirilishi xaritani qisqartirish infratuzilmasidan foydalanadi.
Yangilangan SQL, bu tur NoSQL ma'lumotlar bazalarining miqyoslanishini (masshtablanishini) relyatsion ma'lumotlar bazalarining afzalliklari bilan birlashtiradi. Ushbu ma'lumotlar bazalarining barchasi SQL interfeysi va relyatsion ma'lumotlar modelidan foydalanadi.
Grafik ma'lumotlar bazalari - jadval formati barcha vazifalar uchun maqbul emas. Ba'zi muammolar tabiiy ravishda grafik sifatida tasvirlash va grafik ma'lumotlar bazalarida saqlash uchun mos keladi. Buning misoli - jtimoiy tarmoq ma’lumotlari.

Rejalashtirish vositalari.
Rejalashtirish vositalari takrorlanuvchi vazifalarni avtomatlashtirishni va ishlarni real voqealar asosida bajarishni osonlashtiradi (masalan, papkada yangi fayl paydo bo'lganda). Ular Linuxdagi CRON kabi an'anaviy dasturlarga o'xshaydi, lekin katta ma'lumotlar uchun maxsus ishlab chiqilgan
Qiyosiy tahlil vositalari.
Ushbu toifadagi vositalar standartlashtirilgan profillarni taqdim etish orqali katta ma'lumotlarni o'rnatishni optimallashtirish uchun mo'ljallangan. Profillar katta ma'lumotlar operatsiyalari vakillik to'plami asosida qurilgan
Tizimni joylashtirish.
Katta ma'lumotlar infratuzilmasini tayyorlash oson ish emas. Katta ma'lumotlar klasterlariga yangi ilovalarni o'rnatishda tizimni o'rnatish vositalari o'z-o'zidan paydo bo'ladi. Ular katta ma'lumotlar komponentlarini o'rnatish va sozlashni asosan avtomatlashtiradi. Bu soha data science bilan ishlovchining asosiy vazifalaridan biri emas.
Xizmat dasturlash.
Aytaylik, siz futbol o'yinlari natijalarini bashorat qilish uchun ilova yaratdingiz va endi barchaga ilovangizning bashoratlariga kirishiga ruxsat bermoqchisiz. Biroq, ularning tizimlarida qanday arxitektura yoki texnologiyalar qo'llanilishi haqida hech qanday tasavvurga ega emassiz
Xavfsizlik.
Ma'lumotlaringizga ruxsatsiz kirishini xohlaysizmi? Bu holda ma'lumotlarga kirishni aniq boshqarish mexanizmini tashkil qilish kerak, lekin buni har bir alohida dastur darajasida qilishni xohlamaysiz. Katta ma'lumotlar xavfsizligi vositalari markazlashtirilgan va yuqori aniqlikdagi ma'lumotlarga kirishni boshqarish tizimini yaratishga imkon beradi
Hadoop misoli
Katta ma'lumotlar kontekstidagi kichik dasturni ko'rib chiqamiz. Buni amalga oshirish uchun Hortonworks tomonidan lokal mashinada katta ma'lumotlar ilovalarini sinab ko'rish uchun yaratilgan virtual mashina Hortonworks Sandbox obrazidan foydalanamiz.
Virtualbox-da Sandbox-ni ishga tushirish uchun bir necha amallarni bajarish kerak.
1. Virtual obrazni http://hortonworks.com/products/hortonworks-sandbox/#install dan yuklab oling.
2. Boshqaruv virtual mashinasini ishga tushiring. VirtualBox-ni yuklab olish https://www.virtualbox.org/wiki/Downloads.
3. Ctrl+I tugmalarini bosing va Hortonworks virtual tasvirini tanlang.
4. NEXT tugmasini bosing.
5. Import tugmasini bosing; Qisqa vaqtdan so'ng obrazingiz muvaffaqiyatli import qilinadi.
6. Virtual mashinangizni tanlang va Run tugmasini bosing.
7. Hadoop o'rnatilgan CentOS ishga tushishini biroz kuting (1.8-rasm). Diqqat qiling: rasmda Sandbox 2.1 versiyasidan foydalaniladi. Boshqa versiyalarda kichik o'zgarishlar bo'lishi mumkin.
Hortonworks tarqatish, shuningdek, HCatalog darajasida joylashgan ikkita o'quv ma'lumotlar to'plamini o'z ichiga oladi. Mavjud jadvallar ro'yxatini ko'rish uchun HCat tugmasini bosing
Hortonworks Sandbox http://127.0.0.1:8000 manzilida
Mavjud HCatalog jadvallari ro'yxati
Jadval tarkibi
Bir qarashda, ma’lumotlar oddiy ko'rinadi. Hive - bu oddiy SQL ma'lumotlar bazasi kabi ushbu ma'lumotlar bilan ishlash imkonini beruvchi vosita. Hive natijalarni ishlab chiqarish uchun an'anaviy SQL dialekti bo'lgan HiveQL dan foydalanadi. Beeswax HiveQL muharririni ochish uchun menyudagi Beeswax tugmasini bosing
HiveQL buyruqlari Beeswax HiveQL muharririda bajariladi.
Execute tugmasini bosing. Hive HiveQL so'rovini MapReduce ishiga aylantiradi va uni 1.13-rasmda ko'rsatilganidek Hadoop muhitida bajaradi
HiveQL so’rovi MapReduce topshirig’iga o’zgarishi
Yakuniy natija: kasb bo'yicha o'rtacha ish haqining qisqacha mazmuni

Download 3.59 Mb.

1 2

Download 3.59 Mb.