Ma’lumotlarni tahlil qilish usullari va ularning ustun xususiyatlari




Download 279 Kb.
bet2/2
Sana05.02.2024
Hajmi279 Kb.
#151699
1   2
Bog'liq
Ma\'lumotlar va ularning tahlili fanidan

2. Ma’lumotlarni tahlil qilish usullari va ularning ustun xususiyatlari.
Ma'lumotlarni tahlil qilish tekshirish jarayoni, tozalash, o'zgaruvchan va modellashtirish ma'lumotlar foydali ma'lumotlarni topish, xulosalarni xabardor qilish va qaror qabul qilishni qo'llab-quvvatlash maqsadida. Ma'lumotlarni tahlil qilish turli xil nomlarni o'z ichiga olgan turli xil texnikani o'z ichiga olgan bir nechta jihatlar va yondashuvlarga ega va turli biznes, fan va ijtimoiy fan sohalarida qo'llaniladi. Bugungi ishbilarmonlik dunyosida ma'lumotlar tahlili qarorlarni yanada ilmiyroq qabul qilishda va korxonalarning yanada samarali ishlashiga yordam berishda muhim rol o'ynaydi.
Boshqa maqsadlar uchun qarang Statistika (ajralish).

Bu normal taqsimot, juda keng tarqalgan ehtimollik zichligi, tufayli foydali markaziy chegara teoremasi.

Tarqoq uchastkalar tavsiflovchi statistikada turli xil o'zgaruvchilar o'rtasidagi kuzatilgan munosabatlarni ko'rsatish uchun foydalaniladi, bu erda yordamida Iris gullari to'plami.
Statistika yig'ish, tashkil etish, tahlil qilish, talqin qilish va taqdim etishga tegishli bo'lgan intizomdir ma'lumotlar. Ilmiy, ishlab chiqarish yoki ijtimoiy muammolarga statistikani qo'llashda odatdagidek a statistik aholi yoki a statistik model o'rganilishi kerak. Populyatsiyalar turli xil odamlar guruhlari yoki "bir mamlakatda yashovchi barcha odamlar" yoki "kristal yaratuvchi har bir atom" kabi ob'ektlar bo'lishi mumkin. Statistika ma'lumotlarning har bir jihati bilan shug'ullanadi, shu jumladan ma'lumotlar yig'ishni rejalashtirish bo'yicha rejalashtirish so'rovnomalar va tajribalar. Shartlar va mavzular ro'yxati uchun ehtimollik va statistika lug'ati.
Qachon ro'yxatga olish ma'lumotlar yig'ib bo'lmaydi, statistiklar aniq eksperiment dizayni va so'rovnomasini ishlab chiqish orqali ma'lumotlarni to'plash namunalar. Vakil namuna olish, xulosalar va xulosalar namunadan butun aholiga oqilona ta'sir qilishi mumkinligiga ishontiradi. Eksperimental o'rganish o'rganilayotgan tizimning o'lchovlarini amalga oshirishni, tizimni manipulyatsiya qilishni va keyinchalik manipulyatsiya o'lchovlarning qiymatlarini o'zgartirganligini aniqlash uchun xuddi shu protsedura yordamida qo'shimcha o'lchovlarni o'z ichiga oladi. Aksincha, bir kuzatish o'rganish eksperimental manipulyatsiyani o'z ichiga olmaydi.
Ikkita asosiy statistik usullardan foydalaniladi ma'lumotlarni tahlil qilish: tavsiflovchi statistikayordamida namuna ma'lumotlarini sarhisob qiladi indekslar kabi anglatadi yoki standart og'ishva xulosa statistikasi, tasodifiy o'zgarishga duch keladigan ma'lumotlardan (masalan, kuzatuv xatolari, tanlovning o'zgarishi) xulosalar chiqaradigan. Ta'riflovchi statistika ko'pincha ikkita xususiyatlar to'plami bilan bog'liq tarqatish (namuna yoki aholi): markaziy tendentsiya (yoki Manzil) taqsimotning markaziy yoki odatiy qiymatini tavsiflashga intiladi, ammo tarqalish (yoki o'zgaruvchanlik) taqsimot a'zolari uning markazidan va bir-biridan chiqib ketish darajasini tavsiflaydi. Haqida xulosalar matematik statistika doirasida tuzilgan ehtimollik nazariyasi, bu tasodifiy hodisalarni tahlil qilish bilan shug'ullanadi.
Odatiy statistik protsedura ma'lumotlar to'plashni o'z ichiga oladi munosabatlarning sinovi ikkita statistik ma'lumotlar to'plami yoki idealizatsiya qilingan modeldan olingan ma'lumotlar to'plami va sintetik ma'lumotlar o'rtasida. Ikki ma'lumotlar to'plamlari o'rtasidagi statistik munosabatlar uchun gipoteza taklif etiladi va bu an bilan taqqoslanadi muqobil idealizatsiyaga nol gipoteza ikkita ma'lumotlar to'plami o'rtasida hech qanday bog'liqlik yo'qligi. Nol gipotezani rad etish yoki rad etish, testda ishlatiladigan ma'lumotlarni hisobga olgan holda, nullning yolg'onligini isbotlash mumkin bo'lgan miqdorni aniqlaydigan statistik testlar yordamida amalga oshiriladi. Nol gipoteza asosida ikkita asosiy xato shakli tan olinadi: I toifa xatolar (nol gipoteza "soxta ijobiy" berish bilan yolg'on rad etilgan) va II turdagi xatolar (nol gipoteza rad etilmaydi va populyatsiyalar o'rtasidagi o'zaro munosabatlar "noto'g'ri salbiy" ni qoldiradi). Ushbu ramka bilan etarli miqdordagi namuna olishdan tortib to etarli nol gipotezani ko'rsatishgacha bo'lgan bir nechta muammolar kelib chiqdi.
Statistik ma'lumotlarni ishlab chiqaradigan o'lchov jarayonlari ham xatolarga duch keladi. Ushbu xatolarning aksariyati tasodifiy (shovqin) yoki muntazam (tarafkashlik), ammo boshqa turdagi xatolar ham bo'lishi mumkin (masalan, xato, masalan, tahlilchi noto'g'ri birliklar haqida xabar berganda). Mavjudligi etishmayotgan ma'lumotlar yoki tsenzura noxolis baholarga olib kelishi mumkin va ushbu muammolarni hal qilish uchun aniq texnikalar ishlab chiqilgan.
Dastlabki yozuvlar ehtimollik va statistik ma'lumotlar, olingan statistik usullar ehtimollik nazariyasi, tarixidan kelib chiqqan Arab matematiklari va kriptograflar, ayniqsa Al-Xalil (717–786) va Al-Kindi (801–873). XVIII asrda statistika ham juda ko'p o'zlashtira boshladi hisob-kitob. So'nggi yillarda statistik ma'lumotlar dasturiy ta'minotga ko'proq bog'liq.
Ma'lumotlarni qazib olish bu aniq tavsiflash uchun emas, balki bashorat qilish uchun statistik modellashtirish va bilimlarni kashf etishga qaratilgan ma'lumotlarni tahlil qilishning o'ziga xos uslubi. biznes razvedkasi asosan ishbilarmonlik to'g'risidagi ma'lumotlarga e'tiborni jamlagan holda, ma'lumotlarning tahlilini qamrab oladi. Statistik qo'llanmalarda ma'lumotlar tahlilini ikkiga bo'lish mumkin tavsiflovchi statistika, kashfiyot ma'lumotlarini tahlil qilish (EDA) va tasdiqlovchi ma'lumotlarni tahlil qilish (CDA). EDA ma'lumotlarning yangi xususiyatlarini aniqlashga, CDA esa mavjudligini tasdiqlash yoki soxtalashtirishga qaratilgan gipotezalar. Bashoratli tahlil bashoratli prognozlash yoki tasniflash uchun statistik modellarni qo'llashga qaratilgan, ammo matn tahlili turlarining matn manbalaridan ma'lumot olish va tasniflash bo'yicha statistik, lingvistik va tarkibiy metodlarni qo'llaydi tuzilmagan ma'lumotlar. Yuqorida aytilganlarning barchasi ma'lumotlar tahlilining navlari.
Ma'lumotlarni birlashtirish ma'lumotlar tahlilining kashfiyotchisi bo'lib, ma'lumotlar tahlili bilan chambarchas bog'liqdir ma'lumotlarni vizualizatsiya qilish va ma'lumotlarni tarqatish.
Ma'lumotlarni qazib olish katta hajmdagi naqshlarni kashf etish jarayonidir ma'lumotlar to'plamlari chorrahasida usullarni o'z ichiga olgan mashinada o'rganish, statistikava ma'lumotlar bazasi tizimlari. Ma'lumotlarni qazib olish an fanlararo subfild Kompyuter fanlari va statistika ma'lumotlar to'plamidan ma'lumotlarni (aqlli usullar bilan) ajratib olish va undan keyingi foydalanish uchun ma'lumotni tushunarli tuzilishga aylantirishning umumiy maqsadi. Ma'lumotlarni qazib olish - bu "ma'lumotlar bazalarida bilimlarni kashf etish" yoki KDD jarayonining tahlil bosqichi. Xom tahlil bosqichidan tashqari, unga ma'lumotlar bazasi va ma'lumotlarni boshqarish jihatlari, ma'lumotlarni oldindan qayta ishlash, model va xulosa mulohazalar, qiziqarli ko'rsatkichlar, murakkablik mulohazalar, topilgan inshootlarni qayta ishlash, vizualizatsiyava onlayn yangilash.
"Ma'lumotlarni qazib olish" atamasi a noto'g'ri nom, chunki maqsad katta hajmdagi ma'lumotlardan naqsh va bilimlarni olish emas, balki chiqarib olish (kon qazib olish) ma'lumotlarning o'zi. Bu ham g'alati so'z va keng ko'lamli ma'lumotlarning har qanday shakliga tez-tez qo'llaniladi yoki axborotni qayta ishlash (to'plam, qazib olish, omborxona, tahlil va statistika) hamda har qanday qo'llanilishi kompyuter qarorlarini qo'llab-quvvatlash tizimi, shu jumladan sun'iy intellekt (masalan, mashinada o'rganish) va biznes razvedkasi. Kitob Ma'lumotlarni qazib olish: Java bilan amaliy mashg'ulot vositalari va texnikasi (asosan, mashina o'quv materiallarini o'z ichiga olgan) dastlab faqat nomlanishi kerak edi Mashinada amaliy mashg'ulotlarva muddat ma'lumotlar qazib olish faqat marketing sabablari bilan qo'shilgan. Ko'pincha umumiy atamalar (keng ko'lamli) ma'lumotlarni tahlil qilish va tahlil- yoki haqiqiy usullarni nazarda tutganda, sun'iy intellekt va mashinada o'rganish- ko'proq mos keladi.
Ma'lumotlarni qazib olishning dolzarb vazifasi - bu ma'lumotlar yozuvlari guruhlari kabi ilgari noma'lum bo'lgan qiziqarli naqshlarni olish uchun katta hajmdagi ma'lumotlarni yarim avtomatik yoki avtomatik tahlil qilish (klaster tahlili), g'ayrioddiy yozuvlar (anomaliyani aniqlash) va bog'liqliklar (uyushma qoidalari qazib olish, ketma-ket naqsh qazib olish). Bu, odatda, ma'lumotlar bazasi texnikasidan foydalanishni o'z ichiga oladi fazoviy ko'rsatkichlar. Keyinchalik ushbu naqshlar kirish ma'lumotlarining xulosasi sifatida qaralishi mumkin va undan keyingi tahlillarda yoki masalan, mashinani o'rganishda va bashoratli tahlil. Masalan, ma'lumotlarni qazib olish bosqichi ma'lumotlarning bir nechta guruhlarini aniqlashi mumkin, keyinchalik ular yordamida aniqroq bashorat qilish natijalarini olish uchun foydalanish mumkin qarorlarni qo'llab-quvvatlash tizimi. Ma'lumotlarni yig'ish, ma'lumotlarni tayyorlash yoki natijalarni talqin qilish va hisobot berish ma'lumotlar yig'ish bosqichining bir qismi emas, balki qo'shimcha qadamlar sifatida umumiy KDD jarayoniga tegishli emas.
Orasidagi farq ma'lumotlarni tahlil qilish va ma'lumotlarni qazib olish - bu ma'lumotlar tahlili ma'lumotlar to'plamidagi modellar va gipotezalarni sinash uchun ishlatiladi, masalan, ma'lumotlar miqdoridan qat'iy nazar, marketing kampaniyasining samaradorligini tahlil qilish; farqli o'laroq, ma'lumotlar qazib olishda katta hajmdagi ma'lumotlarning yashirin yoki yashirin naqshlarini aniqlash uchun mashinasozlik va statistik modellardan foydalaniladi.
Bilan bog'liq atamalar ma'lumotlarni chuqurlashtirish, ma'lumotlar bilan baliq ovlashva ma'lumotlarni kuzatib borish kashf etilgan har qanday naqshning haqiqiyligi to'g'risida ishonchli statistik xulosalar chiqarish uchun juda kichik bo'lgan (yoki bo'lishi mumkin) katta aholi ma'lumotlar to'plamining qismlarini tanlash uchun ma'lumotlarni qazib olish usullaridan foydalanishga murojaat qiling. Shu bilan birga, ushbu usullardan ko'proq ma'lumot populyatsiyasini sinab ko'rish uchun yangi farazlarni yaratishda foydalanish mumkin.
Mashinada o'qitish (ML) bu tajriba orqali avtomatik ravishda takomillashadigan kompyuter algoritmlarini o'rganishdir. Mashinada o'qitish algoritmlari namunaviy ma'lumotlarga asoslanib, "o'quv ma'lumotlari", bashorat qilish yoki aniq dasturlashsiz qaror qabul qilish uchun. Mashinali o'qitish algoritmlari kabi turli xil dasturlarda qo'llaniladi elektron pochta orqali filtrlash va kompyuterni ko'rish, kerakli vazifalarni bajarish uchun an'anaviy algoritmlarni ishlab chiqish qiyin yoki maqsadga muvofiq emas.
Mashinada o'qitishning bir qismi bilan chambarchas bog'liq hisoblash statistikasi, bu kompyuterlar yordamida bashorat qilishga qaratilgan; ammo hamma mashinada o'rganish statistik o'rganish emas. O'rganish matematik optimallashtirish mashinasozlik sohasiga metodlar, nazariya va dastur sohalarini etkazib beradi. Ma'lumotlarni qazib olish e'tiborini qaratish bilan bog'liq bo'lgan ta'lim sohasidir kashfiyot ma'lumotlarini tahlil qilish orqali nazoratsiz o'rganish. Ishbilarmonlik muammolari bo'yicha uni qo'llashda mashinasozlik deb ham ataladi bashoratli tahlil.
Download 279 Kb.
1   2




Download 279 Kb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Ma’lumotlarni tahlil qilish usullari va ularning ustun xususiyatlari

Download 279 Kb.