Big data pdf




Download 405,08 Kb.
Pdf ko'rish
Sana28.09.2024
Hajmi405,08 Kb.
#272790
Bog'liq
1 Ma\'ruza Kirish



OLAP AND OTHER DATA STORAGE. OLAP AND DATA MINING 
INTEGRATION
..................................................... 
GLOSSARY
..................................................................................................................... 156 
LITERATURE
................................................................................................................ 160 
KIRISH 
Ushbu o`quv qo`llanma talabalarni Data Mining texnologiyasi bilan 
tanishtiradi, Data Mining-ning usullari, vositalari va qo'llanilishini batafsil 
o'rganadi. Har bir usulning tavsifi uni qo'llashning aniq namunasi bilan birga keladi. 
Data Mining va klassik statistik tahlil usullari va OLAP tizimlari o'rtasidagi 
farqlar muhokama qilinadi va Data Mining tomonidan aniqlangan naqsh turlari 
(assotsiatsiya, tasniflash, ketma-ketlik, klasterlash, prognozlash) ko'rib chiqiladi. 
Data Mining ilovasining doirasi tavsiflangan. Web Mining tushunchasi joriy etilgan. 
Ma'lumotlarni qidirish usullari batafsil ko'rib chiqiladi: neyron tarmoqlari, qarorlar 
daraxtlari, chegaralangan hisoblash usullari, genetik algoritmlar, evolyutsion 
dasturlash, klaster modellari, estrodiol usullar. Har bir usul bilan tanishish Data 
Mining texnologiyasidan foydalangan holda vosita yordamida amaliy vazifani hal 
qilish orqali tasvirlanadi. Ma'lumotlar omborlari va ularning arxitekturasidagi Data 
Miningning asosiy tushunchalari bayon qilingan. OLTP, OLAP, ROLAP, MOLAP 
tushunchalari kiritilgan va Data Mining texnologiyasidan foydalangan holda 
ma'lumotlarni tahlil qilish jarayoni muhokama qilinadi. Ushbu jarayonning 
bosqichlari batafsil muhokama qilinadi. Analitik dasturiy ta'minot bozori tahlil 
qilinadi, etakchi Data Mining ishlab chiqaruvchilarining mahsulotlari tavsiflanadi 
va ularning imkoniyatlari muhokama qilinadi. 


1-MAVZU 
DATA VA MA`LUMOTLAR 
FANINING MAZMUNI, 
PREDMETI VA METODI 
Reja: 
1. "Big data va ma`lumotlar tahlili" fanining mazmuni 
2. Big Data bilan ishlash bosqichlari 
3. Data Mining. Data Mining texnologiyalari 
Mashg`ulot maqsadi: 
Mashg`ulotda Data Mining kontseptsiyasi batafsil 
muhokama qilinadi. Data Mining ning kelib chiqishi, istiqbollari, muammolari 
tasvirlangan. Axborot texnologiyalari bozorining bir qismi sifatida Data Mining 
texnologiyasiga qarash berilgan.
Tayanch iboralar: 
ma'lumotlar, Data Mining, Ma'lumotlar, tahlil, naqsh, 
bilimlarni ekstraksiya qilish, naqsh, bilimlarni kashf etish, KDD, statistika, 
namunalarni tan olish, sun'iy intellekt, sun'iy intellekt, DBMS, IMS, IBM, 
konferentsiya, ma'lumotlar tizimi, tarmoq modeli, SQL, interfeys, qaror qabul qilish, 
ma'no, bilim, ma'lumotni joylashtirish, ta'rifi, SAS, guruh, qidiruv, taqdimot, 
Business Intelligence, DSS, qarorlarni qo'llab-quvvatlash tizimi, axborot-tahlil 
tizimi, EIS, korxona ma'lumotlari, bog`liqlik.
1. "Big data va ma`lumotlar tahlili" fanining mazmuni 
Big data(katta ma'lumotlar) - juda katta hajmdagi bir jinsli bo'lmagan va tez 
tushadigan raqamli ma'lumotlar bo'lib, ularni odatiy usullar bilan qayta ishlab 
bo'lmaydi. Ba'zi hollarda, katta ma'lumotlar tushunchasi bilan birga shu 
ma'lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz obyekti katta 
ma'lumotlar deb ataladi. Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali 
muharriri Klifford Linch dunyo ma'lumotlar hajmining juda tez sur'atda o'sishiga 
bag'ishlangan maxsus sonida big data atamasini qo'llagan. Biroq, katta ma'lumotlar 
avval ham bo'lgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko'p ma'lumot 
tushadigan oqimlarga big data deb aytiladi. Katta ma'lumotlarni analiz qilish, inson 
his etish imkoniyatidan tashqarida bo'lgan qonuniylatlarni aniqlashda yordam 


beradi. Bu esa kundalik hayotimizdagi barcha sohalar, hukumatni boshqarish, 
tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa 
sohalarni yanada yaxshilash, ularning imkoniyatlarini oshirish, muommolarga 
muqobil yechimlar izlab topish imkonini yaratadi. Katta ma'lumotlar (Big data) - bu 
bitta kontekstdagi doimiy ravishda o'sib boradigan ma'lumotlar hajmining, ammo 
taqdimotning turli formatlari, shuningdek, tezkor qayta ishlash usullari va vositalari. 
Katta ma'lumotlar: qaysi ma'lumotlar katta deb hisoblanadi. Mur qonunida 
tasvirlangan hisoblash quvvatining eksponentli o'sishi sababli, ma'lumotlar miqdori 
ularning katta yoki yo'qligini aniq mezon bo'lishi mumkin emas. Masalan, bugungi 
kunda katta ma'lumotlar terabaytlarda, ertaga petabaytlarda o'lchanadi. Shuning 
uchun Big Data-ning asosiy xususiyati bu ularning tuzilish darajasi va taqdimot 
variantlari. 
Shakl: 1.1.1. Big dataning asosiy xususiyatlari 
Sensorlardan yoki audio va video yozuv qurilmalaridan doimiy ravishda 
keladigan ma'lumotlar, ijtimoiy tarmoqlardan kelgan xabarlar oqimlari, 
meteorologik ma'lumotlar, uyali aloqa abonentlarining geolokatsion koordinatlari va 
boshqalar kata hajmdagi ma'lumotlarning yorqin misolidir. Masalan, bu yerda 
"Gazpromneft" neft quduqlaridagi boshqaruv tizimlari nazoratchilarining 200 
milliondan ortiq turli xil yozuvlarini, avariya holatlaridagi kuchlanishni qayta tiklash 
yozuvlarini, nasos ishining o'ziga xos xususiyatlarini va nosozliklar sabablari 
to'g'risida farazlarni shakllantirish va sinash uchun quduq sharoitlarining 


xususiyatlarini qanday to'plashi va tahlil qilishi hamda nasos uskunalarini 
ishlatishda ilgari noma'lum munosabatlarni aniqlash kabi vazifalarni o`z ichiga 
oladi. Katta ma'lumotlar manbalari quyidagicha bo'ladi: Internetdagi ijtimoiy 
tarmoqlar, bloglar, OAV, forumlar, veb-saytlar, (Internet of Things (IoT)); 
korporativ ma'lumotlar - bitimlar, arxivlar, ma'lumotlar bazalari va fayllarni saqlash; 
asboblarning ko`rsatgichlari - sensorlar, magnitafonlar va boshqalar. 
2. Big Data bilan ishlash bosqichlari 
Muayyan vaziyatlarning sabablari, xususan, uskunaning ishlamay qolishi 
kuchlanish sharoitlari bilan bog'liq ishchi farazni olish yoki kelajakni bashorat qilish 
uchun, masalan, xususiy qarz oluvchi tomonidan qarzni o'z vaqtida qaytarish 
ehtimoli, tuzilgan va tuzilmagan ma'lumotlarning katta hajmini tahlil qilish bir necha 
bosqichlarda amalga oshiriladi. 
1.
ma'lumotlarni tozalash - ma'lumotlarning dastlabki to'plamidagi xatolarni 
qidirish va tuzatish, masalan, qo'lda kiritish xatolari, qisqa muddatli 
nosozliklar tufayli o'lchash moslamalarining noto'g'ri qiymatlari va hk.; 
2.
bashorat qiluvchilar avlodi (xususiyat muhandisligi) - analitik modellarni 
qurish uchun o'zgaruvchilar, masalan, ma'lumot, potentsial qarz oluvchining 
jinsi va yoshi; 
3.
maqsad o'zgaruvchini bashorat qilish uchun analitik modelni (modelni 
tanlash) qurish va o'rgatish. Shunday qilib, maqsad o'zgaruvchisining 
predikatorlarga bog'liqligi haqidagi farazlar qanday tekshiriladi. Masalan, 
o'rta ma'lumotli va 3 oydan kam ish tajribasiga ega bo'lgan qarz oluvchi uchun 
qarzni to'lash muddati necha kun. 
Big Data bilan ishlash usullari va vositalari
Katta ma'lumotlarni to'plash va tahlil qilishning asosiy usullari quyidagilarni o'z 
ichiga oladi: 
Data Mining - assotsiativ qoidalarni o'qitish, tasniflash, klaster va regressiya 
tahlili; 


krodsourcing - bu inson yordamida ma'lumotlarni toifalash va boyitish, ya'ni, 
uchinchi shaxslarning ixtiyoriy yordami bilan; 
raqamli signalga ishlov berish va tabiiy tilda ishlov berish kabi ma'lumotlarni 
aralashtirish va birlashtirish; 
sun'iy neyron tarmoqlari, tarmoqni tahlil qilish, optimallashtirish usullari va 
genetik algoritmlarni o'z ichiga olgan holda mashinani o'rganish; 
takrorlanishlarni aniqlash; 
bashoratli tahlil; 
simulyatsiya modellashtirish; 
mekansal va statistik tahlil; 
analitik ma'lumotlarni vizualizatsiya qilish - rasmlar, grafikalar, diagramma, 
jadvallar. 
Katta ma'lumotlar bilan ishlash uchun dasturiy va apparat vositalari 
kengaytirish, parallel hisoblash va tarqatishni ta'minlaydi, chunki doimiy o'sish katta 
ma'lumotlarning asosiy xususiyatlaridan biridir. Asosiy texnologiyalarga aloqador 
bo'lmagan ma'lumotlar bazasi (NoSQL), MapReduce ma'lumotlarini qayta ishlash 
modeli, Hadoop klasteri ekotizimining tarkibiy qismlari, R va Python dasturlash 
tillari, shuningdek Apache-ning ixtisoslashtirilgan mahsulotlari (Spark, AirFlow, 
Kafka, HBase va boshqalar) kiradi. 
3. Data Mining. Data Mining texnologiyalari 
Data mining(ma'lumotlarni topish)
- biron qonuniyatni topish maqsadida 
ma'lumotlarni intellectual analiz qilishga aytiladi. Isroillik matematik Grigoriy 
Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan. 
Texnologiyalar, 
avvalari 
noma'lum 
va 
foydali 
bo'lgan 
qayta 
ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni 
topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy 
intellekt tutashgan nuqtada joylashadi. 
Ma'lumotlar qidirish usullari har xil tasniflash, modellashtirish va prognoz qilish 
usullariga asoslangan bo'lib, qaror daraxtlarini, sun'iy neyron tarmoqlarini, genetik 
algoritmlarni, evolyutsion dasturlashni, assotsiativ xotirani, loyqa mantiqni 


ishlatishga asoslangan. Ma'lumotlarni qidirish usullari ko'pincha statistik usullarni 
o'z ichiga oladi (tavsifli tahlil, korrelyatsiya va regressiya tahlili, omillar tahlili, 
tafovutni tahlil qilish, tarkibiy qismlarni tahlil qilish, diskriminant tahlil, vaqtni tahlil 
qilish, yashashni tahlil qilish, havolani tahlil qilish). Ammo bunday usullar tahlil 
qilingan ma'lumotlar haqida ba'zi bir afsonaviy fikrlarni qabul qiladi, bu ma'lumotlar 
qidirish maqsadlariga (ilgari noma'lum bo'lmagan va amaliy foydali bilimlarni kashf 
etish) zid keladi. 
Ma'lumotlar qidirish usullarining eng muhim maqsadlaridan biri bu maxsus 
matematik tayyorgarlikka ega bo'lmagan odamlar tomonidan ma'lumotlarni qidirish 
vositalaridan foydalanishga imkon beradigan hisob-kitoblarning natijalari 
(vizualizatsiya). 
Dastlab, ma'lumotlar bazasi mavjud vazifa quyidagicha belgilanadi: 
juda katta; 
ma'lumotlar bazasida ba'zi "yashirin bilimlar" mavjud deb taxmin qilinadi. 
Katta hajmdagi tayyor bo`lmagan ma'lumotlarda yashirin bo'lgan 
metodlarini aniqlash usullarini ishlab chiqish kerak. Hozirgi global raqobat 
sharoitida qo'shimcha raqobatbardosh ustunlik manbai bo'lishi mumkin bo'lgan 
aniqlangan ilmlar (bilimlar)ni aniq ishlab chiqish kerak bo`ladi 
"Yashirin bilim" nimani anglatadi?
ilgari noma'lum - ya'ni yangi bo'lishi kerak bo'lgan bilim (va ilgari olingan 
ma'lumotni tasdiqlamagan holda); 
trivial emas - bu shunchaki ko'rinmaydigan narsalar (ma'lumotlarni to'g'ridan-
to'g'ri vizual tahlil qilish bilan yoki oddiy statistik tavsiflarni hisoblashda); 
amaliy jihatdan foydali - ya'ni tadqiqotchi yoki iste'molchi uchun qadrli 
bo'lgan bilimlar; 
sharhlash uchun qulay - bu foydalanuvchi uchun vizual ko'rinadigan va mavzu 
doirasi bo'yicha tushuntirishga oson bo'lgan bilim. 
Ushbu talablar ma'lumotlar qidirish usullarining mohiyatini va ma'lumotlar 
yig'ish texnologiyasida ma'lumotlar bazasini boshqarish tizimlari, statistik tahlil 


usullari va sun'iy intellekt usullaridan qaysi shaklda va qaysi nisbatda 
foydalanilishini aniqlaydi. 
Ma'lumot olish usullari katta ma'lumotlar bilan ishlashda ham, nisbatan kam 
miqdordagi ma'lumotlarni qayta ishlashda ham qo'llanilishi mumkin (masalan, 
individual eksperimentlar natijalari natijasida yoki kompaniyaning faoliyati 
to'g'risidagi ma'lumotlarni tahlil qilishda olinadi) Yetarli miqdordagi 
ma'lumotlarning mezoni sifatida tadqiqot sohasi, va amaliy tahlil algoritmi kerak 
bo`ladi. 
Data mining yordamida muammolarni hal qilishning bir qator bosqichlari:
1.
Tahlil vazifasi bayoni; 
2.
Ma'lumot to'plash; 
3.
Ma'lumotlarni tayyorlash (filtrlash, qo'shish, kodlash); 
4.
Modelni tanlash (ma'lumotlarni tahlil qilish algoritmi); 
5.
Model parametrlari va o'rganish algoritmini tanlash; 
6.
Modelni o'qitish (boshqa model parametrlarini avtomatik izlash); 
7.
Agar 5-bandga yoki 4-bandga o'tish qoniqarli bo'lmasa, o'qitish sifatini tahlil 
qilish; 
8.
1, 4 yoki 5-bandlarga o'tish qoniqarsiz bo'lsa, aniqlangan bilimlarni tahlil 
qilish. 
Data mining texnik xarakteristikasi
Ma'lumotni izlash asosan uchta tushunchaga asoslanadi: 
Matematik statistika ma'lumotlarni yig'ishda ishlatiladigan texnologiyalarning 
asosini tashkil etadi, masalan, klasterli tahlil, regression tahlil, diskriminatsion 
tahlil va boshqalar. 
Sun'iy intellekt - inson fikrlaydigan neyron tarmog'ini raqamli ko'paytirish; 
Mashinalarni o'rganish - bu eng mos keladigan tahlil usulini yoki qulay usulni 
tanlash uchun kompyuterlarga qayta ishlanadigan ma'lumotlarni tushunishga 
yordam beradigan statistika va sun'iy intellektlar to'plami. 
Ma'lumotlarni qidirishda quyidagi asosiy vazifalar sinflari qo'llaniladi: 


og'ishlarni aniqlash - ba'zi parametrlarda umumiy massadan farq qiladigan 
ma'lumotlarni aniqlash; 
uyushma mashg'ulotlari - voqealar o'rtasidagi munosabatlarni topish; 
klasterlash - oldindan ma'lum bo'lgan naqshlarsiz ma'lumotlar to'plamlarini 
guruhlash; 
tasniflash - yangi ma'lumotlarga murojaat qilish uchun ma'lum bilimlarni 
umumlashtirish; 
regressiya - ma'lumotlar to'plamini eng kichik og'ish bilan ko'rsatadigan 
funktsiyani topish; 
umumlashtirish - dastlabki ma'lumotlarni siqilgan shaklida ko'rsatish, shu 
jumladan hisobotlarni taqdim etish va vizualizatsiya. 
Nazorat savollari
1. Big data deganda nimani tushunasiz? 
2. Mur qanday qoniniyat yaratgan? 
3. Big data ning asosiy bosqichlariga misollar keltiring. 
4. Qanday big dataning to'plash va tahlil qilishning asosiy usullarini bilasiz? 

Download 405,08 Kb.




Download 405,08 Kb.
Pdf ko'rish