Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki




Download 2,38 Mb.
bet2/14
Sana17.01.2024
Hajmi2,38 Mb.
#139936
1   2   3   4   5   6   7   8   9   ...   14
Bog'liq
Top

plot(x, y)


bar(x, height)
scatter(x, y)
stem(x, y)



7

Python muhitidagi Sklearn kutubxonasi imkoniyatlari. Sklearn kutubxonasi metodlariga misollar keltiring.




Scikit-learn - ochiq manbali ma'lumotlarni tahlil qilish kutubxonasi va Python ekotizimidagi Mashinalarni o'rganish (ML) uchun oltin standart.
Asosiy tushunchalar va xususiyatlar quyidagilarni o'z ichiga oladi:

Algoritmik qarorlar qabul qilish usullari, shu jumladan:


Tasniflash: naqshlar asosida ma'lumotlarni aniqlash va turkumlash.
Regressiya: mavjud va rejalashtirilgan ma'lumotlarning o'rtacha o'rtachasiga asoslangan ma'lumotlar qiymatlarini bashorat qilish yoki loyihalash.
Klasterlash: o'xshash ma'lumotlarni ma'lumotlar to'plamiga avtomatik ravishda guruhlash.
Oddiy chiziqli regressiyadan tortib neyron tarmoq naqshini aniqlashgacha bo'lgan bashoratli tahlilni qo'llab-quvvatlaydigan algoritmlar.
NumPy, pandas va matplotlib kutubxonalari bilan o'zaro ishlash.

8

Ma’lumotlarning intellektual tahlilida dataset tushunchasi.




Dataset- bu ma'lumotlar to'plami. Ushbu to'plam odatda jadval shaklida taqdim etiladi. Har bir ustun ma'lum bir o'zgaruvchini tavsiflaydi. Va har bir satr berilgan savolga muvofiq ma'lumotlar to'plamining berilgan a'zosiga mos keladi. Bu ma'lumotlarni boshqarishning bir qismidir . Ma'lumotlar to'plamlari ob'ektning balandligi, vazni, harorati, hajmi va boshqalar kabi noma'lum miqdorlar uchun har bir o'zgaruvchining qiymatlarini yoki tasodifiy sonlarning qiymatlarini tavsiflaydi. Ushbu to'plamdagi qiymatlar datum deb nomlanadi . Ma'lumotlar to'plami har bir qatorga mos keladigan bir yoki bir nechta a'zolarning ma'lumotlaridan iborat. Ushbu maqolada keling, ko'plab echilgan misollar bilan ma'lumotlar to'plamining ta'rifini, har xil turdagi ma'lumotlar to'plamini, xususiyatlarini va boshqalarni bilib olaylik.

    • Raqamli ma'lumotlar to'plami

    • Ikki o'zgaruvchan ma'lumotlar to'plami

    • Ko'p o'zgaruvchan ma'lumotlar to'plami

    • Kategorik ma'lumotlar to'plami

    • Korrelyatsiya ma'lumotlar to'plami

9

Ma’lumotlarning intellektual tahlilida datasetlarning turlari va formatlari




Dataset

10

Korrelatsiya koeffitsienti tushunchasi va uning qo‘llanilish sohalari.

11

Bir o‘zgaruvchili chiziqli regressiya algoritmi.

12

Ko‘p o‘zgaruvchili chiziqli regressiya algoritmi.

13

Ma’lumotlarni vizuallashtirishda scatter plot ta’rifini keltiring

14

Ma’lumotlarni vizuallashtirishda distplot/histogram plot ta’rifini keltiring

15

Ma’lumotlarni vizuallashtirishda boxplot ta’fini keltiring

16

Ma’lumotlarni vizuallashtirishda countplot plot ta’fini keltiring

17

Sinflashtirish algoritmlari. KNN algoritmi ta’fini keltiring.




KNN (K-Nearest-Neighbours)
• K-eng yaqin qo'shnilar nazorat ostida o'rganish texnikasiga asoslangan eng oddiy Mashina o'rganish algoritmlaridan biridir.
• K-NN algoritmi yangi ma'lumotlar va mavjud holatlar o'rtasidagi o'xshashlikni qabul qiladi va yangi qismni mavjud toifalarga eng o'xshash toifaga qo'yadi.
• K-NN algoritmi barcha mavjud ma'lumotlarni saqlaydi va o'xshashlik asosida yangi ma'lumotlar nuqtasini tasniflaydi.
• K-NN algoritmi regressiya uchun ham, tasniflash uchun ham qo'llanilishi mumkin, lekin u asosan tasniflash muammolari uchun ishlatiladi.
• K-NN parametrik boʻlmagan algoritm boʻlib, u asosiy maʼlumotlarga hech qanday taxmin qilmaydi.

18

Klasterlash algoritmlari. K-Means algoritmi ta’fini keltiring.




• Clustering
Hierarchical clustering
– K-means clustering
– Principal Component Analysis
– Singular Value Decomposition
– Independent Component Analysis
K-o‘rtacha klasterlash (K-means)
• K-o’rtacha klasterlash – bu vektorli kvantlash usuli bo’lib, signallarni qayta ishlashda n kuzatuvchini k klasterlarga ajratishga asoslangan bo’lib, har kuzatuvchi klasterga eng yaqin o’rtacha qiymat asosida tegishli bo’ladi.

19

Statistikada mean, mode va median tushunchalari va ularning ma’lumotlarning intellektual tahlilidagi o‘rni.




Statistikada mean, median va mode
mean, median va mode- bu ma'lum ma'lumotlar to'plamining turli xususiyatlarini o'rganish uchun ishlatiladigan markaziy tendentsiya ko'rsatkichlari. Markaziy tendentsiya o'lchovi ma'lumotlar to'plamidagi markaziy pozitsiyani yagona qiymat sifatida aniqlash orqali ma'lumotlar to'plamini tavsiflaydi. Biz buni ma'lumotlarning o'rtacha qiymat atrofida to'planish tendentsiyasi deb hisoblashimiz mumkin. Statistikada markaziy tendentsiyalarning eng keng tarqalgan uchta o'lchovi mean, median va modedir. Markaziy tendentsiyaning eng yaxshi o'lchovini tanlash bizda mavjud bo'lgan ma'lumotlar turiga bog'liq.
Mean
Berilgan ma'lumotlarning o'rtacha arifmetik qiymatini hisoblashda ishlatiladi. Bunda barcha kuzatishlar yig'indisi kuzatuvlar soniga bo'linadi.
Misol uchun, kriketchining beshta o'yinidagi ochkolari quyidagicha: 12, 34, 45, 50, 24. Uning o'yindagi o'rtacha ballini topish uchun biz mean formuladan foydalanib ma'lumotlarning o'rtacha arifmetik qiymatini hisoblaymiz:
Mean = Barcha kuzatishlar yig'indisi / Kuzatishlar soni
Mean = (12 + 34 + 45 + 50 + 24)/5
Mean = 165/5 = 33

Median
Ma'lumotlarni o'sish yoki kamayish tartibida joylashtirgandan so'ng olingan o'rtadagi qiymat ma'lumotlarning medianasi deb ataladi.


Masalan, ma'lumotlarni ko'rib chiqaylik: 4, 4, 6, 3, 2. Bu ma'lumotlarni o'sish tartibida joylashtiramiz: 2, 3, 4, 4, 6. Shunday qilib, median = o'rta qiymat, ya'ni 4.
Mode
Berilgan ma'lumotlarda eng ko'p takrorlangan qiymat hisoblanadi.
Yuqoridagi misolni oladigan bo’lsak,ya’ni 4,4,6,3,2. Bu yerda mode=4

20

Statistikada percentile, variance va standard deviation tushunchalari va ularning ma’lumotlarning intellektual tahlilidagi o‘rni




Standart deviation
Standard deviation bu har bir miqdor va Mean farqlarning o'rtachasini aniqlaydi. Bu ma'lumotlar Meandan qanday holatini ko'rsatadi.
Agar Standart deviation qiymati past bo'lsa, bu miqdorlar Meanga yaqin, yuqori bo'lsa, Meandan uzoqda joylashganini bildiradi.
masalan, 12,24,41,51,67,67,85,99 ni olsak, bu yerda Mean=55.75ligini hisoblab bilishimiz mumkin.
Quyidagi Standart deviation formulasi yordamida uning qiymatini hisoblaymiz. Bu yerda =Mean


Va javob S.D=29,62 bo'ladi.

Variance


Variance har bir miqdor va Mean orasidagi o'rtacha masofaning kvadratidir. Ya'ni bu standart deviationning kvadrati.

Va javob 877.34 bo'ladi.

Percentile


Percentile- bu ma'lumotlar to'plamidagi qiymatlarning o'rnini ifodalash usuli. Percentileni hisoblash uchun ma'lumotlar to'plamidagi qiymatlar har doim o'sish tartibida bo'lishi kerak.
masalan, 12,24,41,51,67,67,85,99
bu yerda median=59ligini hisoblab bilishimiz mumkin.
Buni quyidagicha ham aytish mumkin: Ma'lumotlar to'plamida 59 50-percentiledir, chunki jami ma’lumotlarning 50% 59 dan kichik(12,24,41,51).
Umuman olganda, agar k n-percentile bo'lsa, bu umumiy ma’lumotning n% k dan kichik ekanligini bildiradi.



21

Ma’lumotlarning intellektual tahlilida istisno holatlar(Outliers), datasetni istisno holatlardan tozalash usullari va ularni olib tashlash zarurati.




Istisnolar (outliers) ma'lumotlar to'plamini tahlil qilish natijalarining aniqligi, ishonchliligi va mazmunliligiga sezilarli ta'sir ko'rsatishi mumkin. Ushbu istisnolar o'lchov xatolari, ma'lumotlarni kiritish xatolari, ma'lumotlarni manipulyatsiya qilish xatolari, noto'g'ri tasniflangan kuzatuvlar, noto'g'ri tanlangan namuna o'lchamlari yoki tarqatishning ekstremal uchlaridan hosil bo'lgan ma'lumotlardan kelib chiqishi mumkin.

Ma'lumotlar to'plamini istisnolardan tozalash vositalariga noto'g'ri qiymatlarni aniqlash va olib tashlash, etishmayotgan qiymatlarni almashtirish va ma'lumotlarni qayta o'lchash kiradi. Ma'lumotlarning tabiatiga va undan maqsadli foydalanishga qarab, aniq tahlilni ta'minlash uchun istisnolarni olib tashlash kerak bo'lishi mumkin.


Misol uchun, agar ma'lumotlar to'plamini tahlil qilish faqat ekstremal kuzatuvlarni talab qilsa, istisnolarni saqlab qolish oqilona bo'ladi, chunki ular qo'shimcha ma'lumotlarning muhim manbai bo'lishi mumkin. Aksincha, agar ma'lumotlar to'plami populyatsiyani tavsiflash uchun mo'ljallangan bo'lsa, istisnolarni olib tashlash kerak bo'lishi mumkin, chunki ular natijalarni buzishi mumkin.


Va nihoyat, agar ma'lumotlar to'plami bashoratli modellashtirish yoki mashinani o'rganishda ishlatilsa, haddan tashqari moslashish yoki noto'g'ri natijalarni oldini olish uchun istisnolarni olib tashlash kerak. Istisnolarni olib tashlamasdan, ko'rinmas ma'lumotlar bo'yicha noto'g'ri bashoratlarni ishlab chiqarish uchun bashoratli modelni o'rgatish mumkin.



22

Ma’lumotlarni klasterlashda Elbow(Tirsak) metodining vazifasi va Elbow metodining ishlash prinsipi.




Tirsak usuli - bu ma'lumotlar to'plamiga kiritish uchun klasterlarning optimal sonini aniqlashga yordam berish uchun ma'lumotlarni klasterlashda qo'llaniladigan usul. Bu kvadrat xatolar yig'indisini (SSE) ma'lum bir nuqtaga qadar ko'proq klasterlarni qo'shish orqali minimallashtirish mumkin degan fikrga asoslanadi, lekin keyin o'sishni boshlaydi. Bu nuqta SSE grafigida klasterlar soniga nisbatan "tirsak" sifatida tanilgan. Klasterlarning optimal soni SSE ko'tarila boshlagan grafikdagi "tirsak" nuqtasi sifatida aniqlanadi. Shu sababli, ushbu usul foydalanuvchiga har birini qo'lda baholashga hojat qoldirmasdan, klasterlarning optimal sonini tezda aniqlash imkonini beradi.

23

Ma’lumotlarning intellektual tahlilida masofani o‘lchash usullari.




Ma'lumotlarning intellektual tahlili - kuzatishlar va tajribalar natijasida to'plangan ma'lumotlarni tahlil qilish orqali masofani o'lchash usuli. Bu ma'lumotlar bo'yicha xulosalar chiqarish uchun naqshlarni, xususiyatlarni va tendentsiyalarni aniqlash uchun ma'lumotlarni sharhlashni o'z ichiga oladi. Bu usul ikki yoki undan ortiq nuqtalar yoki joylar orasidagi masofa haqida xulosa chiqarish uchun ishlatilishi mumkin. To'plangan ma'lumotlar GPS ma'lumotlari, sun'iy yo'ldosh tasvirlari, aerofotosuratlar yoki dala tadqiqotlari kabi manbalardan bo'lishi mumkin. Bu usul ekologiya va ekologiya fanidan tortib iqtisod va sotsiologiyagacha bo'lgan turli sohalarda qo'llaniladi.

24

Maʼlumotlarni intellektual tahlilidan ko‘zlangan maqsad nima?





Download 2,38 Mb.
1   2   3   4   5   6   7   8   9   ...   14




Download 2,38 Mb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki

Download 2,38 Mb.