Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki




Download 2.1 Mb.
bet2/14
Sana15.03.2023
Hajmi2.1 Mb.
#45527
1   2   3   4   5   6   7   8   9   ...   14
Bog'liq
data mining yakiy savol javobi bilan
VIZUAL, Taqdimot (8), @uqituvchiga hujjat Aniq fanlar metodbirlashmasi ish rejasi

plot(x, y)


bar(x, height)
scatter(x, y)
stem(x, y)



7

Python muhitidagi Sklearn kutubxonasi imkoniyatlari. Sklearn kutubxonasi metodlariga misollar keltiring.




Scikit-learn - ochiq manbali ma'lumotlarni tahlil qilish kutubxonasi va Python ekotizimidagi Mashinalarni o'rganish (ML) uchun oltin standart.
Asosiy tushunchalar va xususiyatlar quyidagilarni o'z ichiga oladi:

Algoritmik qarorlar qabul qilish usullari, shu jumladan:


Tasniflash: naqshlar asosida ma'lumotlarni aniqlash va turkumlash.
Regressiya: mavjud va rejalashtirilgan ma'lumotlarning o'rtacha o'rtachasiga asoslangan ma'lumotlar qiymatlarini bashorat qilish yoki loyihalash.
Klasterlash: o'xshash ma'lumotlarni ma'lumotlar to'plamiga avtomatik ravishda guruhlash.
Oddiy chiziqli regressiyadan tortib neyron tarmoq naqshini aniqlashgacha bo'lgan bashoratli tahlilni qo'llab-quvvatlaydigan algoritmlar.
NumPy, pandas va matplotlib kutubxonalari bilan o'zaro ishlash.

8

Ma’lumotlarning intellektual tahlilida dataset tushunchasi.




Dataset- bu ma'lumotlar to'plami. Ushbu to'plam odatda jadval shaklida taqdim etiladi. Har bir ustun ma'lum bir o'zgaruvchini tavsiflaydi. Va har bir satr berilgan savolga muvofiq ma'lumotlar to'plamining berilgan a'zosiga mos keladi. Bu ma'lumotlarni boshqarishning bir qismidir . Ma'lumotlar to'plamlari ob'ektning balandligi, vazni, harorati, hajmi va boshqalar kabi noma'lum miqdorlar uchun har bir o'zgaruvchining qiymatlarini yoki tasodifiy sonlarning qiymatlarini tavsiflaydi. Ushbu to'plamdagi qiymatlar datum deb nomlanadi . Ma'lumotlar to'plami har bir qatorga mos keladigan bir yoki bir nechta a'zolarning ma'lumotlaridan iborat. Ushbu maqolada keling, ko'plab echilgan misollar bilan ma'lumotlar to'plamining ta'rifini, har xil turdagi ma'lumotlar to'plamini, xususiyatlarini va boshqalarni bilib olaylik.

    • Raqamli ma'lumotlar to'plami

    • Ikki o'zgaruvchan ma'lumotlar to'plami

    • Ko'p o'zgaruvchan ma'lumotlar to'plami

    • Kategorik ma'lumotlar to'plami

    • Korrelyatsiya ma'lumotlar to'plami

9

Ma’lumotlarning intellektual tahlilida datasetlarning turlari va formatlari




Dataset


10

Korrelatsiya koeffitsienti tushunchasi va uning qo‘llanilish sohalari.




Korrelyatsiya (lotincha “korrelatio” – nisbat, munosabat)- tasodifiy o'zgaruvchilar (o'zgaruvchilar) o'rtasidagi statistik ehtimollik bog'liqligi o'lchovini anglatuvchi matematik atama.
Tabiiy hodisalar o'rtasidagi munosabatlarga misollar: tabiatdagi oziq-ovqat zanjiri, o'zaro bog'langan va bir butun sifatida faoliyat ko'rsatadigan organ tizimlaridan iborat inson tanasi.
Tasodifiy o'zgaruvchilar o'rtasidagi kuchli korrelyatsiya- bu hodisalar o'rtasida ma'lum bir statistik bog'liqlik mavjudligini tasdiqlovchi dalillar, lekin bu munosabatni bir xil hodisalarga o'tkazish mumkin emas, balki boshqa vaziyat uchun. Ko'pincha, tadqiqotchilar o'zlarining hisob-kitoblarida ikki o'zgaruvchi o'rtasidagi muhim korrelyatsiyani qo'lga kiritib, korrelyatsiya tahlilining soddaligiga asoslanib, korrelyatsiya koeffitsienti ehtimollik ekanligini unutib, xususiyatlar o'rtasidagi sabab-oqibat munosabatlari mavjudligi haqida noto'g'ri intuitiv taxminlar qilishadi.
Korrelyatsiya turlari Muhimligi bo'yicha Korrelyatsiya turlari- juda muhim, ahamiyatli va ahamiyatsiz.
Imkoniyatlar
O'rganilayotgan o'zgaruvchilar qaysi masshtabga tegishli ekanligiga qarab, korrelyatsiya koeffitsientlarining har xil turlari hisoblanadi:
1.Pearson korrelyatsiya koeffitsienti, juft chiziqli korrelyatsiya koeffitsienti yoki mahsulot momenti korrelyatsiyasi intervalli va miqdoriy o'lchov shkalasi bo'lgan o'zgaruvchilar uchun hisoblanadi.
2.Spearman yoki Kendall darajali korrelyatsiya koeffitsienti - qiymatlardan kamida bittasi tartibli shkalaga ega bo'lsa yoki normal taqsimlanmagan bo'lsa.
3.Nuqta ikki qatorli korrelyatsiya koeffitsienti (Fechner belgisi korrelyatsiya koeffitsienti) - agar ikkita qiymatdan biri dixotom bo'lsa.
4.To'rt maydonli korrelyatsiya koeffitsienti (ko'p darajali korrelyatsiya koeffitsienti (uyg'unlik) - agar ikkita o'zgaruvchi dixotomiyali bo'lsa.

11

Bir o‘zgaruvchili chiziqli regressiya algoritmi.




Oddiy chiziqli regressiya – bu 1ta xususiyatdan foydalangan holda javobni taxmin qilish uchun yondashib ikki uzgaruvchini chiziqli bog'liqligini taxmin qiladi. Mos keladigan chiziq regressiya chizig'i deb nomlanadi va Y = a * X + b tipidagi chiziqli tenglama bilan ifodalanadi.
Formul ikki yoki undan ko'p xarakteristikalarni bir-biri bilan bog'lash uchun interpolating ma'lumotlarga asoslanadi. Algoritmga kirish xarakteristikasini berganingizda, regress boshqa xarakteristikani qaytaradi

12

Ko‘p o‘zgaruvchili chiziqli regressiya algoritmi.





13

Ma’lumotlarni vizuallashtirishda scatter plot ta’rifini keltiring






14

Ma’lumotlarni vizuallashtirishda distplot/histogram plot ta’rifini keltiring






15

Ma’lumotlarni vizuallashtirishda boxplot ta’fini keltiring






16

Ma’lumotlarni vizuallashtirishda countplot plot ta’fini keltiring






17

Sinflashtirish algoritmlari. KNN algoritmi ta’fini keltiring.






18

Klasterlash algoritmlari. K-Means algoritmi ta’fini keltiring.






19

Statistikada mean, mode va median tushunchalari va ularning ma’lumotlarning intellektual tahlilidagi o‘rni.






20

Statistikada percentile, variance va standard deviation tushunchalari va ularning ma’lumotlarning intellektual tahlilidagi o‘rni

21

Ma’lumotlarning intellektual tahlilida istisno holatlar(Outliers), datasetni istisno holatlardan tozalash usullari va ularni olib tashlash zarurati.




Istisnolar (outliers) ma'lumotlar to'plamini tahlil qilish natijalarining aniqligi, ishonchliligi va mazmunliligiga sezilarli ta'sir ko'rsatishi mumkin. Ushbu istisnolar o'lchov xatolari, ma'lumotlarni kiritish xatolari, ma'lumotlarni manipulyatsiya qilish xatolari, noto'g'ri tasniflangan kuzatuvlar, noto'g'ri tanlangan namuna o'lchamlari yoki tarqatishning ekstremal uchlaridan hosil bo'lgan ma'lumotlardan kelib chiqishi mumkin.

Ma'lumotlar to'plamini istisnolardan tozalash vositalariga noto'g'ri qiymatlarni aniqlash va olib tashlash, etishmayotgan qiymatlarni almashtirish va ma'lumotlarni qayta o'lchash kiradi. Ma'lumotlarning tabiatiga va undan maqsadli foydalanishga qarab, aniq tahlilni ta'minlash uchun istisnolarni olib tashlash kerak bo'lishi mumkin.


Misol uchun, agar ma'lumotlar to'plamini tahlil qilish faqat ekstremal kuzatuvlarni talab qilsa, istisnolarni saqlab qolish oqilona bo'ladi, chunki ular qo'shimcha ma'lumotlarning muhim manbai bo'lishi mumkin. Aksincha, agar ma'lumotlar to'plami populyatsiyani tavsiflash uchun mo'ljallangan bo'lsa, istisnolarni olib tashlash kerak bo'lishi mumkin, chunki ular natijalarni buzishi mumkin.


Va nihoyat, agar ma'lumotlar to'plami bashoratli modellashtirish yoki mashinani o'rganishda ishlatilsa, haddan tashqari moslashish yoki noto'g'ri natijalarni oldini olish uchun istisnolarni olib tashlash kerak. Istisnolarni olib tashlamasdan, ko'rinmas ma'lumotlar bo'yicha noto'g'ri bashoratlarni ishlab chiqarish uchun bashoratli modelni o'rgatish mumkin.



22

Ma’lumotlarni klasterlashda Elbow(Tirsak) metodining vazifasi va Elbow metodining ishlash prinsipi.




Tirsak usuli - bu ma'lumotlar to'plamiga kiritish uchun klasterlarning optimal sonini aniqlashga yordam berish uchun ma'lumotlarni klasterlashda qo'llaniladigan usul. Bu kvadrat xatolar yig'indisini (SSE) ma'lum bir nuqtaga qadar ko'proq klasterlarni qo'shish orqali minimallashtirish mumkin degan fikrga asoslanadi, lekin keyin o'sishni boshlaydi. Bu nuqta SSE grafigida klasterlar soniga nisbatan "tirsak" sifatida tanilgan. Klasterlarning optimal soni SSE ko'tarila boshlagan grafikdagi "tirsak" nuqtasi sifatida aniqlanadi. Shu sababli, ushbu usul foydalanuvchiga har birini qo'lda baholashga hojat qoldirmasdan, klasterlarning optimal sonini tezda aniqlash imkonini beradi.

23

Ma’lumotlarning intellektual tahlilida masofani o‘lchash usullari.




Ma'lumotlarning intellektual tahlili - kuzatishlar va tajribalar natijasida to'plangan ma'lumotlarni tahlil qilish orqali masofani o'lchash usuli. Bu ma'lumotlar bo'yicha xulosalar chiqarish uchun naqshlarni, xususiyatlarni va tendentsiyalarni aniqlash uchun ma'lumotlarni sharhlashni o'z ichiga oladi. Bu usul ikki yoki undan ortiq nuqtalar yoki joylar orasidagi masofa haqida xulosa chiqarish uchun ishlatilishi mumkin. To'plangan ma'lumotlar GPS ma'lumotlari, sun'iy yo'ldosh tasvirlari, aerofotosuratlar yoki dala tadqiqotlari kabi manbalardan bo'lishi mumkin. Bu usul ekologiya va ekologiya fanidan tortib iqtisod va sotsiologiyagacha bo'lgan turli sohalarda qo'llaniladi.

24

Maʼlumotlarni intellektual tahlilidan ko‘zlangan maqsad nima?





Download 2.1 Mb.
1   2   3   4   5   6   7   8   9   ...   14




Download 2.1 Mb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki

Download 2.1 Mb.