OLAP AND OTHER DATA STORAGE. OLAP AND DATA MINING
INTEGRATION
.....................................................
GLOSSARY
..................................................................................................................... 156
LITERATURE
................................................................................................................ 160
KIRISH
Ushbu o`quv qo`llanma talabalarni Data Mining texnologiyasi bilan
tanishtiradi, Data Mining-ning usullari, vositalari va qo'llanilishini batafsil
o'rganadi. Har bir usulning tavsifi uni qo'llashning aniq namunasi bilan birga keladi.
Data Mining va klassik statistik tahlil usullari va OLAP tizimlari o'rtasidagi
farqlar muhokama qilinadi va Data Mining tomonidan aniqlangan naqsh turlari
(assotsiatsiya, tasniflash, ketma-ketlik, klasterlash, prognozlash) ko'rib chiqiladi.
Data Mining ilovasining doirasi tavsiflangan. Web Mining tushunchasi joriy etilgan.
Ma'lumotlarni qidirish usullari batafsil ko'rib chiqiladi: neyron tarmoqlari, qarorlar
daraxtlari, chegaralangan hisoblash usullari, genetik algoritmlar, evolyutsion
dasturlash, klaster modellari, estrodiol usullar. Har bir usul bilan tanishish Data
Mining texnologiyasidan foydalangan holda vosita yordamida amaliy vazifani hal
qilish orqali tasvirlanadi. Ma'lumotlar omborlari va ularning arxitekturasidagi Data
Miningning asosiy tushunchalari bayon qilingan. OLTP, OLAP, ROLAP, MOLAP
tushunchalari kiritilgan va Data Mining texnologiyasidan foydalangan holda
ma'lumotlarni tahlil qilish jarayoni muhokama qilinadi. Ushbu jarayonning
bosqichlari batafsil muhokama qilinadi. Analitik dasturiy ta'minot bozori tahlil
qilinadi, etakchi Data Mining ishlab chiqaruvchilarining mahsulotlari tavsiflanadi
va ularning imkoniyatlari muhokama qilinadi.
1-MAVZU
DATA VA MA`LUMOTLAR
FANINING MAZMUNI,
PREDMETI VA METODI
Reja:
1. "Big data va ma`lumotlar tahlili" fanining mazmuni
2. Big Data bilan ishlash bosqichlari
3. Data Mining. Data Mining texnologiyalari
Mashg`ulot maqsadi:
Mashg`ulotda Data Mining kontseptsiyasi batafsil
muhokama qilinadi. Data Mining ning kelib chiqishi, istiqbollari, muammolari
tasvirlangan. Axborot texnologiyalari bozorining bir qismi sifatida Data Mining
texnologiyasiga qarash berilgan.
Tayanch iboralar:
ma'lumotlar, Data Mining, Ma'lumotlar, tahlil, naqsh,
bilimlarni ekstraksiya qilish, naqsh, bilimlarni kashf etish, KDD, statistika,
namunalarni tan olish, sun'iy intellekt, sun'iy intellekt, DBMS, IMS, IBM,
konferentsiya, ma'lumotlar tizimi, tarmoq modeli, SQL, interfeys, qaror qabul qilish,
ma'no, bilim, ma'lumotni joylashtirish, ta'rifi, SAS, guruh, qidiruv, taqdimot,
Business Intelligence, DSS, qarorlarni qo'llab-quvvatlash tizimi, axborot-tahlil
tizimi, EIS, korxona ma'lumotlari, bog`liqlik.
1. "Big data va ma`lumotlar tahlili" fanining mazmuni
Big data(katta ma'lumotlar) - juda katta hajmdagi bir jinsli bo'lmagan va tez
tushadigan raqamli ma'lumotlar bo'lib, ularni odatiy usullar bilan qayta ishlab
bo'lmaydi. Ba'zi hollarda, katta ma'lumotlar tushunchasi bilan birga shu
ma'lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz obyekti katta
ma'lumotlar deb ataladi. Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali
muharriri Klifford Linch dunyo ma'lumotlar hajmining juda tez sur'atda o'sishiga
bag'ishlangan maxsus sonida big data atamasini qo'llagan. Biroq, katta ma'lumotlar
avval ham bo'lgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko'p ma'lumot
tushadigan oqimlarga big data deb aytiladi. Katta ma'lumotlarni analiz qilish, inson
his etish imkoniyatidan tashqarida bo'lgan qonuniylatlarni aniqlashda yordam
beradi. Bu esa kundalik hayotimizdagi barcha sohalar, hukumatni boshqarish,
tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa
sohalarni yanada yaxshilash, ularning imkoniyatlarini oshirish, muommolarga
muqobil yechimlar izlab topish imkonini yaratadi. Katta ma'lumotlar (Big data) - bu
bitta kontekstdagi doimiy ravishda o'sib boradigan ma'lumotlar hajmining, ammo
taqdimotning turli formatlari, shuningdek, tezkor qayta ishlash usullari va vositalari.
Katta ma'lumotlar: qaysi ma'lumotlar katta deb hisoblanadi. Mur qonunida
tasvirlangan hisoblash quvvatining eksponentli o'sishi sababli, ma'lumotlar miqdori
ularning katta yoki yo'qligini aniq mezon bo'lishi mumkin emas. Masalan, bugungi
kunda katta ma'lumotlar terabaytlarda, ertaga petabaytlarda o'lchanadi. Shuning
uchun Big Data-ning asosiy xususiyati bu ularning tuzilish darajasi va taqdimot
variantlari.
Shakl: 1.1.1. Big dataning asosiy xususiyatlari
Sensorlardan yoki audio va video yozuv qurilmalaridan doimiy ravishda
keladigan ma'lumotlar, ijtimoiy tarmoqlardan kelgan xabarlar oqimlari,
meteorologik ma'lumotlar, uyali aloqa abonentlarining geolokatsion koordinatlari va
boshqalar kata hajmdagi ma'lumotlarning yorqin misolidir. Masalan, bu yerda
"Gazpromneft" neft quduqlaridagi boshqaruv tizimlari nazoratchilarining 200
milliondan ortiq turli xil yozuvlarini, avariya holatlaridagi kuchlanishni qayta tiklash
yozuvlarini, nasos ishining o'ziga xos xususiyatlarini va nosozliklar sabablari
to'g'risida farazlarni shakllantirish va sinash uchun quduq sharoitlarining
xususiyatlarini qanday to'plashi va tahlil qilishi hamda nasos uskunalarini
ishlatishda ilgari noma'lum munosabatlarni aniqlash kabi vazifalarni o`z ichiga
oladi. Katta ma'lumotlar manbalari quyidagicha bo'ladi: Internetdagi ijtimoiy
tarmoqlar, bloglar, OAV, forumlar, veb-saytlar, (Internet of Things (IoT));
korporativ ma'lumotlar - bitimlar, arxivlar, ma'lumotlar bazalari va fayllarni saqlash;
asboblarning ko`rsatgichlari - sensorlar, magnitafonlar va boshqalar.
2. Big Data bilan ishlash bosqichlari
Muayyan vaziyatlarning sabablari, xususan, uskunaning ishlamay qolishi
kuchlanish sharoitlari bilan bog'liq ishchi farazni olish yoki kelajakni bashorat qilish
uchun, masalan, xususiy qarz oluvchi tomonidan qarzni o'z vaqtida qaytarish
ehtimoli, tuzilgan va tuzilmagan ma'lumotlarning katta hajmini tahlil qilish bir necha
bosqichlarda amalga oshiriladi.
1.
ma'lumotlarni tozalash - ma'lumotlarning dastlabki to'plamidagi xatolarni
qidirish va tuzatish, masalan, qo'lda kiritish xatolari, qisqa muddatli
nosozliklar tufayli o'lchash moslamalarining noto'g'ri qiymatlari va hk.;
2.
bashorat qiluvchilar avlodi (xususiyat muhandisligi) - analitik modellarni
qurish uchun o'zgaruvchilar, masalan, ma'lumot, potentsial qarz oluvchining
jinsi va yoshi;
3.
maqsad o'zgaruvchini bashorat qilish uchun analitik modelni (modelni
tanlash) qurish va o'rgatish. Shunday qilib, maqsad o'zgaruvchisining
predikatorlarga bog'liqligi haqidagi farazlar qanday tekshiriladi. Masalan,
o'rta ma'lumotli va 3 oydan kam ish tajribasiga ega bo'lgan qarz oluvchi uchun
qarzni to'lash muddati necha kun.
Big Data bilan ishlash usullari va vositalari
Katta ma'lumotlarni to'plash va tahlil qilishning asosiy usullari quyidagilarni o'z
ichiga oladi:
Data Mining - assotsiativ qoidalarni o'qitish, tasniflash, klaster va regressiya
tahlili;
krodsourcing - bu inson yordamida ma'lumotlarni toifalash va boyitish, ya'ni,
uchinchi shaxslarning ixtiyoriy yordami bilan;
raqamli signalga ishlov berish va tabiiy tilda ishlov berish kabi ma'lumotlarni
aralashtirish va birlashtirish;
sun'iy neyron tarmoqlari, tarmoqni tahlil qilish, optimallashtirish usullari va
genetik algoritmlarni o'z ichiga olgan holda mashinani o'rganish;
takrorlanishlarni aniqlash;
bashoratli tahlil;
simulyatsiya modellashtirish;
mekansal va statistik tahlil;
analitik ma'lumotlarni vizualizatsiya qilish - rasmlar, grafikalar, diagramma,
jadvallar.
Katta ma'lumotlar bilan ishlash uchun dasturiy va apparat vositalari
kengaytirish, parallel hisoblash va tarqatishni ta'minlaydi, chunki doimiy o'sish katta
ma'lumotlarning asosiy xususiyatlaridan biridir. Asosiy texnologiyalarga aloqador
bo'lmagan ma'lumotlar bazasi (NoSQL), MapReduce ma'lumotlarini qayta ishlash
modeli, Hadoop klasteri ekotizimining tarkibiy qismlari, R va Python dasturlash
tillari, shuningdek Apache-ning ixtisoslashtirilgan mahsulotlari (Spark, AirFlow,
Kafka, HBase va boshqalar) kiradi.
3. Data Mining. Data Mining texnologiyalari
Data mining(ma'lumotlarni topish)
- biron qonuniyatni topish maqsadida
ma'lumotlarni intellectual analiz qilishga aytiladi. Isroillik matematik Grigoriy
Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.
Texnologiyalar,
avvalari
noma'lum
va
foydali
bo'lgan
qayta
ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni
topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy
intellekt tutashgan nuqtada joylashadi.
Ma'lumotlar qidirish usullari har xil tasniflash, modellashtirish va prognoz qilish
usullariga asoslangan bo'lib, qaror daraxtlarini, sun'iy neyron tarmoqlarini, genetik
algoritmlarni, evolyutsion dasturlashni, assotsiativ xotirani, loyqa mantiqni
ishlatishga asoslangan. Ma'lumotlarni qidirish usullari ko'pincha statistik usullarni
o'z ichiga oladi (tavsifli tahlil, korrelyatsiya va regressiya tahlili, omillar tahlili,
tafovutni tahlil qilish, tarkibiy qismlarni tahlil qilish, diskriminant tahlil, vaqtni tahlil
qilish, yashashni tahlil qilish, havolani tahlil qilish). Ammo bunday usullar tahlil
qilingan ma'lumotlar haqida ba'zi bir afsonaviy fikrlarni qabul qiladi, bu ma'lumotlar
qidirish maqsadlariga (ilgari noma'lum bo'lmagan va amaliy foydali bilimlarni kashf
etish) zid keladi.
Ma'lumotlar qidirish usullarining eng muhim maqsadlaridan biri bu maxsus
matematik tayyorgarlikka ega bo'lmagan odamlar tomonidan ma'lumotlarni qidirish
vositalaridan foydalanishga imkon beradigan hisob-kitoblarning natijalari
(vizualizatsiya).
Dastlab, ma'lumotlar bazasi mavjud vazifa quyidagicha belgilanadi:
juda katta;
ma'lumotlar bazasida ba'zi "yashirin bilimlar" mavjud deb taxmin qilinadi.
Katta hajmdagi tayyor bo`lmagan ma'lumotlarda yashirin bo'lgan
metodlarini aniqlash usullarini ishlab chiqish kerak. Hozirgi global raqobat
sharoitida qo'shimcha raqobatbardosh ustunlik manbai bo'lishi mumkin bo'lgan
aniqlangan ilmlar (bilimlar)ni aniq ishlab chiqish kerak bo`ladi
"Yashirin bilim" nimani anglatadi?
ilgari noma'lum - ya'ni yangi bo'lishi kerak bo'lgan bilim (va ilgari olingan
ma'lumotni tasdiqlamagan holda);
trivial emas - bu shunchaki ko'rinmaydigan narsalar (ma'lumotlarni to'g'ridan-
to'g'ri vizual tahlil qilish bilan yoki oddiy statistik tavsiflarni hisoblashda);
amaliy jihatdan foydali - ya'ni tadqiqotchi yoki iste'molchi uchun qadrli
bo'lgan bilimlar;
sharhlash uchun qulay - bu foydalanuvchi uchun vizual ko'rinadigan va mavzu
doirasi bo'yicha tushuntirishga oson bo'lgan bilim.
Ushbu talablar ma'lumotlar qidirish usullarining mohiyatini va ma'lumotlar
yig'ish texnologiyasida ma'lumotlar bazasini boshqarish tizimlari, statistik tahlil
usullari va sun'iy intellekt usullaridan qaysi shaklda va qaysi nisbatda
foydalanilishini aniqlaydi.
Ma'lumot olish usullari katta ma'lumotlar bilan ishlashda ham, nisbatan kam
miqdordagi ma'lumotlarni qayta ishlashda ham qo'llanilishi mumkin (masalan,
individual eksperimentlar natijalari natijasida yoki kompaniyaning faoliyati
to'g'risidagi ma'lumotlarni tahlil qilishda olinadi) Yetarli miqdordagi
ma'lumotlarning mezoni sifatida tadqiqot sohasi, va amaliy tahlil algoritmi kerak
bo`ladi.
Data mining yordamida muammolarni hal qilishning bir qator bosqichlari:
1.
Tahlil vazifasi bayoni;
2.
Ma'lumot to'plash;
3.
Ma'lumotlarni tayyorlash (filtrlash, qo'shish, kodlash);
4.
Modelni tanlash (ma'lumotlarni tahlil qilish algoritmi);
5.
Model parametrlari va o'rganish algoritmini tanlash;
6.
Modelni o'qitish (boshqa model parametrlarini avtomatik izlash);
7.
Agar 5-bandga yoki 4-bandga o'tish qoniqarli bo'lmasa, o'qitish sifatini tahlil
qilish;
8.
1, 4 yoki 5-bandlarga o'tish qoniqarsiz bo'lsa, aniqlangan bilimlarni tahlil
qilish.
Data mining texnik xarakteristikasi
Ma'lumotni izlash asosan uchta tushunchaga asoslanadi:
Matematik statistika ma'lumotlarni yig'ishda ishlatiladigan texnologiyalarning
asosini tashkil etadi, masalan, klasterli tahlil, regression tahlil, diskriminatsion
tahlil va boshqalar.
Sun'iy intellekt - inson fikrlaydigan neyron tarmog'ini raqamli ko'paytirish;
Mashinalarni o'rganish - bu eng mos keladigan tahlil usulini yoki qulay usulni
tanlash uchun kompyuterlarga qayta ishlanadigan ma'lumotlarni tushunishga
yordam beradigan statistika va sun'iy intellektlar to'plami.
Ma'lumotlarni qidirishda quyidagi asosiy vazifalar sinflari qo'llaniladi:
og'ishlarni aniqlash - ba'zi parametrlarda umumiy massadan farq qiladigan
ma'lumotlarni aniqlash;
uyushma mashg'ulotlari - voqealar o'rtasidagi munosabatlarni topish;
klasterlash - oldindan ma'lum bo'lgan naqshlarsiz ma'lumotlar to'plamlarini
guruhlash;
tasniflash - yangi ma'lumotlarga murojaat qilish uchun ma'lum bilimlarni
umumlashtirish;
regressiya - ma'lumotlar to'plamini eng kichik og'ish bilan ko'rsatadigan
funktsiyani topish;
umumlashtirish - dastlabki ma'lumotlarni siqilgan shaklida ko'rsatish, shu
jumladan hisobotlarni taqdim etish va vizualizatsiya.
Nazorat savollari
1. Big data deganda nimani tushunasiz?
2. Mur qanday qoniniyat yaratgan?
3. Big data ning asosiy bosqichlariga misollar keltiring.
4. Qanday big dataning to'plash va tahlil qilishning asosiy usullarini bilasiz?
|