Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki

Download 2,38 Mb.
bet	10/14
Sana	17.01.2024
Hajmi	2,38 Mb.
	#139936

1 ... 6 7 8 9 10 11 12 13 14

Bog'liq
Top

Unsupervised learning turlari •Clustering

Unsupervised learning
O’qituvchisiz o’qitish (unsupervised learning)–bu mashinani o’qitish usulidan biri bo’lib, bunda modelni oldindan aniq bo’lgan ma’lumotlar bilan o’qitish amalga oshirilmaydi, aksincha obyekt parametrlarini (ma'lumotlarni) topish uchun modelga o'z ustida ishlashga imkon yaratib beriladi.
•Supervised learning usuliga qaraganda murakkab usul hisoblanadi va bashoratlash jarayoni avtomatik lekin noaniqroq bo’lishi mumkin.
•Unsupervised learning usulida asosan“ klasterlash” masalasi yechiladi.

Unsupervised learning turlari
•Clustering
–Hierarchical clustering
–K-means clustering
–Principal Component Analysis
–Singular Value Decomposition
–Independent Component Analysis

49	Regressiya nima?
	Regressiya–bu ma’lumoatlarni intellektual tahlil qilish usullaridan biri bo’lib, obyekt yoki jarayonga tegishli o'zgaruvchilar o'rtasidagi o'zaro bog'liqlikni baholash uchun statistik jarayonlar to'plami hisoblanadi. •Regression tahlil chiziqli yoki nochiziqli,o’z navbatida logistic regressiya usullari asosida amalga oshiriladi. •Regression tahlil asosan bashorat qilish uchun keng qo'llaniladi va hozirda ushbu usulning ishlatilishi mashinani o’qitish sohasi bilan sezilarli darajada mos keladi.
50	Regression tahlilda bashorat qilish jarayonini misolar yordamida yoritib bering.
	Regression tahlil asosan bashorat qilish uchun keng qo'llaniladi va hozirda ushbu usulning ishlatilishi mashinani o’qitish sohasi bilan sezilarli darajada mos keladi . Misol: Doktor 50 ta bemorning bo’yi va vaznini qayd qilib, ma’lumotlar to’plami tuzdi. To’plangan ma’lumotlar bashorat qiluvchi o'zgaruvchi sifatida "vazn" va javob o'zgaruvchisi sifatida "bo’y" dan foydalangan holda oddiy chiziqli regressiya modeliga mos keladi va quyidagi ko’rinishda regressiya modelini tashkil qildi: Y_bo’y= k* x_vazn
51	O‘qituvchili o‘qitish (Supervised learning) algoritmlaridan chiziqli regressiyani kengroq yoritib bering.
	Chiziqli regressiya mashinani o’qitishda eng mashhur va eng sodda algoritmlardan biridir. Chiziqli regressiya modelida biz chiziqni ma'lumotlar to'plamining barcha nuqtalaridan minimal masofaga ega bo'lgan tarzda moslashtirishga harakat qilamiz. Ma'lumotlarning barcha nuqtalaridan minimal masofaga ega bo'lgan to'g'ri chiziqni aniqlaymiz, ya’ni, kirish o'zgaruvchilari (x) va bitta chiqish o'zgaruvchisi (y) o'rtasidagi chiziqli munosabatni nazarda tutadigan chiziqli model hisoblanadi. Chiziqli regressiyaning maqsadi chiziqli modelni iloji boricha kamroq xatolik bilan ilgari Data Setda berilmagan x qiymat berilgan vaqtda, unga mos bo’lgan yangi y ni bashorat qilishga o'rgatishdir. Bunda yuqoridagi topilgan to’g’ri chiziqdan foydalaniladi. Afzalliklari nuqtai nazaridan chiziqli regressiyani tushunish va izohlash oson, ko'p sinfli tasniflar uchun ham foydalanish mumkin. Biroq, bashorat qilingan va bashorat qiluvchi o'zgaruvchilar o'rtasida chiziqli bo'lmagan munosabatlar mavjud bo'lganda, u yaxshi ishlamasligi mumkin hamda to'g'ri xususiyatni tanlash talab qilinadi.
52	O‘qituvchili o‘qitish (Supervised learning) K-NN (K Nearest Neighbors) algoritmini yoritib bering.
	K ta eng yaqin qo'shnilar tasniflash va regressiya uchun parametrik bo'lmagan yondashuv. Bu mashinani o’qitish uchun ishlatiladigan eng oddiy usullardan biridir. KNN dangasa model hisoblanadi, chunki bu modelda o'rganish talab etilmaydi. KNNning asosiy mantig'i sizning qo'shningizni o'rganish, ularni sinov ma'lumotlari nuqtasi bilan solishtirish mumkin deb taxmin qilish va natijani chiqarishdir. Biz KNNda k qo'shnilarni qidiramiz va prognoz qilamiz. KNN tasnifida ko'plik ovozi eng yaqin k ma'lumot nuqtasi uchun ishlatiladi, shu bilan birga k eng yaqin ma'lumotlar nuqtasining o'rtacha qiymati KNN regressiyasida chiqish sifatida hisoblanadi. Qoida tariqasida toq sonlarni k sifatida tanlaymiz. KNN - bu sekin o'rganish modeli bo'lib, unda hisoblashda yagona ish vaqti mavjud. Foydasi: Mashinani o'rganishning tez va sodda modeli, bir nechta sozlanishi mumkin bo'lgan giperparametrlar. Kamchiliklari:k ni oqilona tanlash kerak,n amuna hajmi katta bo'lsa, ish vaqti uzoqqa cho’ziladi, xususiyatlar o'rtasida teng munosabatda bo'lish uchun to'g'ri o'lchov berilishi kerak.
53	O‘qituvchili o‘qitish (Supervised learning) Support Vector Machine (SVM) algoritmini yoritib bering.
	Tasniflash va regressiya uchun ishlatilishi mumkin bo'lgan ML texnikasining bir turi bu SVM algoritmidir. Bu algoritmlardan foydalanish doirasi ancha keng. SVM bu nazorat ostidagi oʻquv vositasi boʻlib, matn tasnifi, tasvirlar tasnifi, bioinformatika va hokazolarda keng qoʻllaniladi. SVMlar boshqa tasniflash algoritmlaridan farq qiladi, chunki ular barcha sinflarning eng yaqin ma'lumotlar nuqtalaridan masofani maksimal darajada oshiradigan qaror chegarasini tanlash usulidir. SVMlar tomonidan yaratilgan qaror chegarasi maksimal chegara tasniflagichi yoki maksimal chegara giper tekisligi deb ataladi. Oddiy chiziqli SVM tasniflagichi ikkita sinf o'rtasida to'g'ri chiziq hosil qilish orqali ishlaydi. Chiziqli SVM algoritmini k-eng yaqin qo'shnilar kabi ba'zi boshqa algoritmlardan yaxshiroq qiladigan narsa shundaki, u sizning ma'lumotlar nuqtalaringizni tasniflash uchun eng yaxshi chiziqni tanlaydi. Ikki xil turdagi SVM mavjud bo'lib, ularning har biri har xil narsalar uchun ishlatiladi: Oddiy SVM: Odatda chiziqli regressiya va tasniflash muammolari uchun ishlatiladi. Kernel SVM: chiziqli bo'lmagan ma'lumotlar uchun ko'proq moslashuvchanlikka ega, chunki siz ikki o'lchovli bo'shliq o'rniga giperplanga moslashish uchun qo'shimcha funktsiyalarni qo'shishingiz mumkin.
54	Ma’lumotlarning intellektual tahlilida ma’lumotlar to’plami (Data set) nima maqsadida hosil qilinadi?
	Mashinani o'rganish uchun ma'lumotlar to'plami jadval shaklida tuzilgan va qayta ishlanadigan ma'lumotlardir. Bunday jadvalning satrlari obyektlar, ustunlari esa xususiyatlar deyiladi. Ma'lumotlar to'plami tizimni o'rgatish va undan keyin haqiqiy muammolarni hal qilish uchun foydalaniladi. Sodda qilib aytganda, biz ma'lumotlar to'plami mashinani o'rganish modeli uchun oziq-ovqat degan xulosaga kelishimiz mumkin.
55	Ma’lumotlarning intellektual tahlilida modeilni o‘qitish jarayonida ma’lumotlar to’plami (Data set) qanday qismlarga ajratiladi va ularning ahamiyati nimada?
	Ma’lumotlarning intellektual tahlilida modelni o’rgatish jarayonida ma’lumotlar to’plami (Data set)ni biz 3 ta qismga ajratamiz, ular "Training set", "Validation set " va "Testing set". Bunda biz klassifikatorni "Training set" yordamida o'rgatamiz, "Validation set" yordamida parametrlarni sozlaymiz va keyin "Testing set" da klassifikatorimizning ishlashini sinab ko'ramiz. Ta'kidlash kerak bo'lgan muhim jihat shundaki, o’qitish davomida faqat "Training set" va "Validation set" dan foydalaniladi. "Testing set"dan esa klassifikatorni o'qitishda foydalanmaslik kerak. "Testing set" faqat tasniflagichni sinovdan o'tkazish paytida qo’llaniladi.
56	Ma’lumotlarga dastlabki ishlov berishda ma’lumot formati qanday ahamiyatga ega?
	Format: Ma'lumotlar har xil fayllarda saqlanishi mumkin. Misol uchun, ma'lumotlar to'plamini shakllantirish uchun birgalikda to'planishi kerak bo'lgan turli xil valyuta, tillar va hokazolarga ega bo'lgan turli mamlakatlardan olingan savdo natijalari.
57	Ma’lumotlarga dastlabki ishlov berishda ma'lumotlarni tozalash qanday ahamiyatga ega?
	Ma'lumotlar juda ko'p ahamiyatsiz va yetishmayotgan qismlarga ega bo'lishi mumkin. Ushbu qismni boshqarish uchun ma'lumotlarni tozalash amalga oshiriladi. Bu yetishmayotgan ma'lumotlar(missing data), shovqinli ma'lumotlar(noisy data) va boshqalar bilan ishlashni o'z ichiga oladi. Bu bosqichda bizning maqsadimiz yo'qolgan qiymatlarni tiklash va ma'lumotlarni keraksiz belgilarini olib tashlashdir.
58	Ma’lumotlarga dastlabki ishlov berishda xususiyatlarni ajratib olish qanday ahamiyatga ega?
	Xususiyatlarni chiqarish: Bu bosqichda biz xususiyatlar sonini tahlil qilish va optimallashtirishga e'tibor qaratamiz. Odatda, jamoa a'zosi prognoz qilish uchun qaysi xususiyatlar muhimligini aniqlashi va tezroq hisoblash va kam xotira iste'moli uchun ularni tanlashi kerak. Xususiyatlarni ajratib olish asosan o'lchamlarni kamaytirish jarayoni bo'lib, unda olingan xom ashyo tegishli boshqariladigan guruhlarga bo'linadi. Ushbu yirik ma'lumotlar to'plamlarining o'ziga xos xususiyati shundaki, ular juda ko'p sonli o'zgaruvchilarni o'z ichiga oladi va qo'shimcha ravishda bu o'zgaruvchilar ularni qayta ishlash uchun juda ko'p hisoblash resurslarini talab qiladi. Demak, Feature Extraction bu holda ma'lum o'zgaruvchilarni tanlashda va shuningdek, ma'lumotlar miqdorini kamaytiradigan ba'zi tegishli o'zgaruvchilarni birlashtirishda foydali bo'lishi mumkin. Olingan natijalar aniqlik va eslab qolish choralari yordamida baholanadi. PCA eng ko'p ishlatiladigan chiziqli o'lchamlarni kamaytirish usullaridan biridir. Bu Unsupervised learning algoritmidir.
59	O‘qituvchisiz o‘qitish (Unsupervised learning) ning klasterlash usulini nima maqsadlarda qo‘llaniladi? Misollar yordamida yoritib bering.
	Klasterlash - bu Unsupervised learning texnikasiga misol bo'lib, bundan biz yorliqlanmagan ma'lumotlar to'plamida strukturani toppish uchun foydalanamiz. Klasterlash to'g'ridan-to'g'ri ma'lumotlaringizdagi xususiyatlar bilan ishlaydi va asosiy ma'lumotlar to'plamida mantiqiy guruhlarni topishga harakat qiladi. Quyida Mashinani o'rganishning klasterlashning eng keng tarqalgan va biz bilgan turlari keltirilgan: Ierarxik klasterlash; K-means klasterlash; KNN( k ta eng yaqin qo’shni). Misol:
60	Iyerarxik klasterlashning ma’lumotlarning intellektual tahlilidagi ahamiyati nimada?

Download 2,38 Mb.

1 ... 6 7 8 9 10 11 12 13 14

Download 2,38 Mb.