• Hierarchical Cluster Analysis
  • Understanding K-means Clustering in Machine Learning
  • How the K-means algorithm works
  • K-means algorithm example problem
  • Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki




    Download 2.1 Mb.
    bet9/14
    Sana15.03.2023
    Hajmi2.1 Mb.
    #45527
    1   ...   6   7   8   9   10   11   12   13   14
    Bog'liq
    data mining yakiy savol javobi bilan
    VIZUAL, Taqdimot (8), @uqituvchiga hujjat Aniq fanlar metodbirlashmasi ish rejasi
    Mashinani o'rganish ( ML ) - bu "o'rganadigan", ya'ni ba'zi vazifalar to'plamida ishlashni yaxshilash uchun ma'lumotlardan foydalanadigan usullarni tushunish va qurishga bag'ishlangan tadqiqot sohasi. bir qismi sifatida ko'riladi .
    Mashinani o'rganish algoritmlari aniq dasturlashtirilmagan holda bashorat qilish yoki qaror qabul qilish uchun o'quv ma'lumotlari deb nomlanuvchi namunaviy ma'lumotlarga asoslangan modelni yaratadi. [2] Mashinani o'rganish algoritmlari tibbiyot, elektron pochtani filtrlash , nutqni aniqlash , qishloq xo'jaligi va kompyuterni ko'rish kabi turli xil ilovalarda qo'llaniladi, bu erda kerakli vazifalarni bajarish uchun odatiy algoritmlarni ishlab chiqish qiyin yoki mumkin emas. 

    45


    Mashinani o’qitish jarayoni bosqichlarini yoritib bering.




    1.Malumotlarni yig`ish
    2.Malumotlarni tayyorlash
    3.Modelni tanlash
    4.Modelni o`rgatish
    5.Modelni baholash
    6.Parametrlarni sozlash
    7.Bashorat qilish

    46

    Mashinani o’qitishning necha xil usuli mavjud va ular qaysilar?




    Ta'riflangan o'nta usul umumiy ko'rinishni taklif qiladi - va siz mashinani o'rganish bo'yicha bilim va ko'nikmalaringizni oshirganingizda asos yaratishingiz mumkin:

    Regressiya


    Tasniflash
    Klasterlash
    Hajmining qisqarishi
    Ansambl usullari
    Neyron tarmoqlari va chuqur o'rganish
    Ta'limni uzatish
    O'rganishni mustahkamlash
    Tabiiy tilni qayta ishlash
    So'zlarni joylashtirish

    47

    O‘qituvchili o‘qitish (Supervised learning) usulini kengroq yoritib bering.




    Nazorat ostida o'rganish (SL) - bu mavjud ma'lumotlar yorliqlangan misollardan iborat bo'lgan muammolar uchun mashinani o'rganish paradigmasi, ya'ni har bir ma'lumot nuqtasi xususiyatlar (kovariatlar) va tegishli yorliqdan iborat. Nazorat ostidagi oʻrganish algoritmlarining maqsadi kirish-chiqish juftliklari misoli asosida xususiyat vektorlarini (kirishlarni) teglar (chiqish) bilan taqqoslaydigan funksiyani oʻrganishdir.[1] U o'quv misollari to'plamidan iborat etiketli trening ma'lumotlaridan funktsiyani chiqaradi.[2] Nazorat ostidagi ta'limda har bir misol kirish ob'ekti (odatda vektor) va kerakli chiqish qiymatidan (nazorat signali deb ham ataladi) iborat juftlikdir. Nazorat qilinadigan o'rganish algoritmi o'quv ma'lumotlarini tahlil qiladi va yangi misollarni xaritalash uchun ishlatilishi mumkin bo'lgan xulosa qilingan funktsiyani ishlab chiqaradi. Optimal stsenariy algoritmga ko'rinmaydigan holatlar uchun sinf belgilarini to'g'ri aniqlash imkonini beradi. Bu o'rganish algoritmini o'quv ma'lumotlaridan ko'rinmaydigan vaziyatlarga "oqilona" tarzda umumlashtirishni talab qiladi (qarang: induktiv tarafkashlik). Algoritmning bu statistik sifati umumlashtirish xatosi orqali o'lchanadi.

    48

    O‘qituvchisiz o‘qitish (Unsupervised learning) usulini kengroq yoritib bering.




    Nazoratsiz o'rganish - bu belgilanmagan ma'lumotlardan naqshlarni o'rganadigan algoritm turi. Umid shuki, odamlarda o'rganishning muhim usuli bo'lgan mimika orqali mashina o'z dunyosining qisqacha tasvirini yaratishga majbur bo'ladi va undan keyin xayoliy tarkibni yaratadi.

    Mutaxassis tomonidan ma'lumotlar belgilanadigan nazorat ostida o'rganishdan farqli o'laroq, masalan. "to'p" yoki "baliq" deb belgilangan, nazoratsiz usullar naqshlarni ehtimollik zichligi [1] yoki mashinaning og'irliklari va faollashuvlarida kodlangan neyron xususiyat imtiyozlari kombinatsiyasi sifatida ushlaydigan o'z-o'zini tashkil qilishni namoyish etadi. Nazorat spektridagi boshqa darajalar - kuchaytiruvchi o'rganish, bunda mashinaga yo'l-yo'riq sifatida faqat raqamli ishlash balli beriladi va ma'lumotlarning kichik bir qismi teglangan yarim nazorat ostida o'rganish.



    49

    Regressiya nima?




    Regressiya - mustaqil o'zgaruvchilar yoki xususiyatlar va qaram o'zgaruvchi yoki natija o'rtasidagi munosabatni tushunish usuli. Natijalarni mustaqil va qaram o'zgaruvchilar o'rtasidagi bog'liqlik taxmin qilinganidan keyin bashorat qilish mumkin. Regressiya - bu mashinani o'rganishda prognoz modellarining asosiy qismini tashkil etuvchi statistikaning o'rganish sohasi. U bashoratli modellashtirishda uzluksiz natijalarni bashorat qilish uchun yondashuv sifatida ishlatiladi, shuning uchun ma'lumotlar natijalarini prognoz qilish va bashorat qilishda foydalidir. Mashinani o'rganish regressiyasi odatda ma'lumotlar nuqtalari orqali eng mos keladigan chiziqni chizishni o'z ichiga oladi. Har bir nuqta va chiziq orasidagi masofa eng yaxshi mos chiziqqa erishish uchun minimallashtiriladi.

    Tasniflash bilan bir qatorda, regressiya boshqariladigan turdagi mashinalarni o'rganishning asosiy qo'llanilishidan biridir. Tasniflash - bu o'rganilgan xususiyatlar asosida ob'ektlarni toifalarga ajratish, regressiya esa doimiy natijalarni prognoz qilishdir. Ikkalasi ham bashoratli modellashtirish muammolari. Nazorat ostidagi mashinani o'rganish ikkala holatda ham yondashuv sifatida ajralmas hisoblanadi, chunki tasniflash va regressiya modellari etiketli kirish va chiqish o'quv ma'lumotlariga tayanadi. Model o'zaro bog'liqlikni tushunishi uchun o'quv ma'lumotlarining xususiyatlari va chiqishi etiketlanishi kerak.



    50

    Regression tahlilda bashorat qilish jarayonini misolar yordamida yoritib bering.




    Regression tahlil asosan bashorat qilish uchun keng qo'llaniladi va hozirda ushbu usulning ishlatilishi mashinani o’qitish sohasi bilan sezilarli darajada mos keladi .

    Misol: Doktor 50 ta bemorning bo’yi va vaznini qayd qilib, ma’lumotlar to’plami tuzdi. To’plangan ma’lumotlar bashorat qiluvchi o'zgaruvchi sifatida "vazn" va javob o'zgaruvchisi sifatida "bo’y" dan foydalangan holda oddiy chiziqli regressiya modeliga mos keladi va quyidagi ko’rinishda regressiya modelini tashkil qildi:
    Ybo’y= k* xvazn



    51

    O‘qituvchili o‘qitish (Supervised learning) algoritmlaridan chiziqli regressiyani kengroq yoritib bering.




    Chiziqli regressiya mashinani o’qitishda eng mashhur va eng sodda algoritmlardan biridir. Chiziqli regressiya modelida biz chiziqni ma'lumotlar to'plamining barcha nuqtalaridan minimal masofaga ega bo'lgan tarzda moslashtirishga harakat qilamiz. Ma'lumotlarning barcha nuqtalaridan minimal masofaga ega bo'lgan to'g'ri chiziqni aniqlaymiz, ya’ni, kirish o'zgaruvchilari (x) va bitta chiqish o'zgaruvchisi (y) o'rtasidagi chiziqli munosabatni nazarda tutadigan chiziqli model hisoblanadi. Chiziqli regressiyaning maqsadi chiziqli modelni iloji boricha kamroq xatolik bilan ilgari Data Setda berilmagan x qiymat berilgan vaqtda, unga mos bo’lgan yangi y ni bashorat qilishga o'rgatishdir. Bunda yuqoridagi topilgan to’g’ri chiziqdan foydalaniladi.
    Afzalliklari nuqtai nazaridan chiziqli regressiyani tushunish va izohlash oson, ko'p sinfli tasniflar uchun ham foydalanish mumkin.
    Biroq, bashorat qilingan va bashorat qiluvchi o'zgaruvchilar o'rtasida chiziqli bo'lmagan munosabatlar mavjud bo'lganda, u yaxshi ishlamasligi mumkin hamda to'g'ri xususiyatni tanlash talab qilinadi.

    52

    O‘qituvchili o‘qitish (Supervised learning) K-NN (K Nearest Neighbors) algoritmini yoritib bering.




    K ta eng yaqin qo'shnilar tasniflash va regressiya uchun parametrik bo'lmagan yondashuv. Bu mashinani o’qitish uchun ishlatiladigan eng oddiy usullardan biridir. KNN dangasa model hisoblanadi, chunki bu modelda o'rganish talab etilmaydi.
    KNNning asosiy mantig'i sizning qo'shningizni o'rganish, ularni sinov ma'lumotlari nuqtasi bilan solishtirish mumkin deb taxmin qilish va natijani chiqarishdir. Biz KNNda k qo'shnilarni qidiramiz va prognoz qilamiz. KNN tasnifida ko'plik ovozi eng yaqin k ma'lumot nuqtasi uchun ishlatiladi, shu bilan birga k eng yaqin ma'lumotlar nuqtasining o'rtacha qiymati KNN regressiyasida chiqish sifatida hisoblanadi. Qoida tariqasida toq sonlarni k sifatida tanlaymiz. KNN - bu sekin o'rganish modeli bo'lib, unda hisoblashda yagona ish vaqti mavjud.
    Foydasi: Mashinani o'rganishning tez va sodda modeli, bir nechta sozlanishi mumkin bo'lgan giperparametrlar.
    Kamchiliklari:k ni oqilona tanlash kerak,n amuna hajmi katta bo'lsa, ish vaqti uzoqqa cho’ziladi, xususiyatlar o'rtasida teng munosabatda bo'lish uchun to'g'ri o'lchov berilishi kerak.

    53

    O‘qituvchili o‘qitish (Supervised learning) Support Vector Machine (SVM) algoritmini yoritib bering.




    Tasniflash va regressiya uchun ishlatilishi mumkin bo'lgan ML texnikasining bir turi bu SVM algoritmidir. Bu algoritmlardan foydalanish doirasi ancha keng. SVM bu nazorat ostidagi oʻquv vositasi boʻlib, matn tasnifi, tasvirlar tasnifi, bioinformatika va hokazolarda keng qoʻllaniladi.
    SVMlar boshqa tasniflash algoritmlaridan farq qiladi, chunki ular barcha sinflarning eng yaqin ma'lumotlar nuqtalaridan masofani maksimal darajada oshiradigan qaror chegarasini tanlash usulidir. SVMlar tomonidan yaratilgan qaror chegarasi maksimal chegara tasniflagichi yoki maksimal chegara giper tekisligi deb ataladi.
    Oddiy chiziqli SVM tasniflagichi ikkita sinf o'rtasida to'g'ri chiziq hosil qilish orqali ishlaydi.
    Chiziqli SVM algoritmini k-eng yaqin qo'shnilar kabi ba'zi boshqa algoritmlardan yaxshiroq qiladigan narsa shundaki, u sizning ma'lumotlar nuqtalaringizni tasniflash uchun eng yaxshi chiziqni tanlaydi.
    Ikki xil turdagi SVM mavjud bo'lib, ularning har biri har xil narsalar uchun ishlatiladi:
    Oddiy SVM: Odatda chiziqli regressiya va tasniflash muammolari uchun ishlatiladi.
    Kernel SVM: chiziqli bo'lmagan ma'lumotlar uchun ko'proq moslashuvchanlikka ega, chunki siz ikki o'lchovli bo'shliq o'rniga giperplanga moslashish uchun qo'shimcha funktsiyalarni qo'shishingiz mumkin.

    54

    Ma’lumotlarning intellektual tahlilida ma’lumotlar to’plami (Data set) nima maqsadida hosil qilinadi?




    Mashinani o'rganish uchun ma'lumotlar to'plami jadval shaklida tuzilgan va qayta ishlanadigan ma'lumotlardir. Bunday jadvalning satrlari obyektlar, ustunlari esa xususiyatlar deyiladi.
    Ma'lumotlar to'plami tizimni o'rgatish va undan keyin haqiqiy muammolarni hal qilish uchun foydalaniladi. Sodda qilib aytganda, biz ma'lumotlar to'plami mashinani o'rganish modeli uchun oziq-ovqat degan xulosaga kelishimiz mumkin.

    55

    Ma’lumotlarning intellektual tahlilida modeilni o‘qitish jarayonida ma’lumotlar to’plami (Data set) qanday qismlarga ajratiladi va ularning ahamiyati nimada?




    Ma’lumotlarning intellektual tahlilida modelni o’rgatish jarayonida ma’lumotlar to’plami (Data set)ni biz 3 ta qismga ajratamiz, ular "Training set", "Validation set " va "Testing set".
    Bunda biz klassifikatorni "Training set" yordamida o'rgatamiz, "Validation set" yordamida parametrlarni sozlaymiz va keyin "Testing set" da klassifikatorimizning ishlashini sinab ko'ramiz. Ta'kidlash kerak bo'lgan muhim jihat shundaki, o’qitish davomida faqat "Training set" va "Validation set" dan foydalaniladi. "Testing set"dan esa klassifikatorni o'qitishda foydalanmaslik kerak. "Testing set" faqat tasniflagichni sinovdan o'tkazish paytida qo’llaniladi.

    56

    Ma’lumotlarga dastlabki ishlov berishda ma’lumot formati qanday ahamiyatga ega?




    Format: Ma'lumotlar har xil fayllarda saqlanishi mumkin. Misol uchun, ma'lumotlar to'plamini shakllantirish uchun birgalikda to'planishi kerak bo'lgan turli xil valyuta, tillar va hokazolarga ega bo'lgan turli mamlakatlardan olingan savdo natijalari.

    57

    Ma’lumotlarga dastlabki ishlov berishda ma'lumotlarni tozalash qanday ahamiyatga ega?




    Ma'lumotlar juda ko'p ahamiyatsiz va yetishmayotgan qismlarga ega bo'lishi mumkin. Ushbu qismni boshqarish uchun ma'lumotlarni tozalash amalga oshiriladi. Bu yetishmayotgan ma'lumotlar(missing data), shovqinli ma'lumotlar(noisy data) va boshqalar bilan ishlashni o'z ichiga oladi.
    Bu bosqichda bizning maqsadimiz yo'qolgan qiymatlarni tiklash va ma'lumotlarni keraksiz belgilarini olib tashlashdir.

    58

    Ma’lumotlarga dastlabki ishlov berishda xususiyatlarni ajratib olish qanday ahamiyatga ega?




    Xususiyatlarni chiqarish: Bu bosqichda biz xususiyatlar sonini tahlil qilish va optimallashtirishga e'tibor qaratamiz. Odatda, jamoa a'zosi prognoz qilish uchun qaysi xususiyatlar muhimligini aniqlashi va tezroq hisoblash va kam xotira iste'moli uchun ularni tanlashi kerak. Xususiyatlarni ajratib olish asosan o'lchamlarni kamaytirish jarayoni bo'lib, unda olingan xom ashyo tegishli boshqariladigan guruhlarga bo'linadi. Ushbu yirik ma'lumotlar to'plamlarining o'ziga xos xususiyati shundaki, ular juda ko'p sonli o'zgaruvchilarni o'z ichiga oladi va qo'shimcha ravishda bu o'zgaruvchilar ularni qayta ishlash uchun juda ko'p hisoblash resurslarini talab qiladi. Demak, Feature Extraction bu holda ma'lum o'zgaruvchilarni tanlashda va shuningdek, ma'lumotlar miqdorini kamaytiradigan ba'zi tegishli o'zgaruvchilarni birlashtirishda foydali bo'lishi mumkin. Olingan natijalar aniqlik va eslab qolish choralari yordamida baholanadi. PCA eng ko'p ishlatiladigan chiziqli o'lchamlarni kamaytirish usullaridan biridir. Bu Unsupervised learning algoritmidir.

    59

    O‘qituvchisiz o‘qitish (Unsupervised learning) ning klasterlash usulini nima maqsadlarda qo‘llaniladi? Misollar yordamida yoritib bering.




    Klasterlash - bu Unsupervised learning texnikasiga misol bo'lib, bundan biz yorliqlanmagan ma'lumotlar to'plamida strukturani toppish uchun foydalanamiz. Klasterlash to'g'ridan-to'g'ri ma'lumotlaringizdagi xususiyatlar bilan ishlaydi va asosiy ma'lumotlar to'plamida mantiqiy guruhlarni topishga harakat qiladi.
    Quyida Mashinani o'rganishning klasterlashning eng keng tarqalgan va biz bilgan turlari keltirilgan:
    Ierarxik klasterlash;
    K-means klasterlash;
    KNN( k ta eng yaqin qo’shni).
    Misol:




    60

    Iyerarxik klasterlashning ma’lumotlarning intellektual tahlilidagi ahamiyati nimada?



    Hierarchical Cluster Analysis


    The goal of hierarchical cluster analysis is to build a tree diagram where the cards that were viewed as most similar by the participants in the study are placed on branches that are close together. For example, Figure 9.4 shows the result of a hierarchical cluster analysis of the data in Table 9.8. The key to interpreting a hierarchical cluster analysis is to look at the point at which any given pair of cards “join together” in the tree diagram. Cards that join together sooner are more similar to each other than those that join together later. For example, the pair of fruits with the lowest (shortest) distance in Table 9.8 (peaches and oranges; distance = 2) join together first in the tree diagram.

    Sign in to download full-size image
    Figure 9.4. Result of a hierarchical cluster analysis of data shown in Table 9.8.
    Several different algorithms can be used in hierarchical cluster analysis to determine how the “linkages” are created. Most of the commercial packages that support hierarchical cluster analysis let you choose which method to use. The linkage method we think works best is one called the Group Average method. But you might want to experiment with some of the other linkage methods to see what the results look like; there’s no absolute rule saying one is better than another.



    61

    K-o‘rtacha klasterlash (K-means) algoritmi misollar yordamida yoritib bering.



    Understanding K-means Clustering in Machine Learning


    K-means clustering is one of the simplest and popular unsupervised machine learning algorithms.
    Typically, unsupervised algorithms make inferences from datasets using only input vectors without referring to known, or labelled, outcomes.
    AndreyBu, who has more than 5 years of machine learning experience and currently teaches people his skills, says that “the objective of K-means is simple: group similar data points together and discover underlying patterns. To achieve this objective, K-means looks for a fixed number (k) of clusters in a dataset.”
    A cluster refers to a collection of data points aggregated together because of certain similarities.
    You’ll define a target number k, which refers to the number of centroids you need in the dataset. A centroid is the imaginary or real location representing the center of the cluster.
    Every data point is allocated to each of the clusters through reducing the in-cluster sum of squares.
    In other words, the K-means algorithm identifies k number of centroids, and then allocates every data point to the nearest cluster, while keeping the centroids as small as possible.
    The ‘means’ in the K-means refers to averaging of the data; that is, finding the centroid.

    How the K-means algorithm works


    To process the learning data, the K-means algorithm in data mining starts with a first group of randomly selected centroids, which are used as the beginning points for every cluster, and then performs iterative (repetitive) calculations to optimize the positions of the centroids
    It halts creating and optimizing clusters when either:

    • The centroids have stabilized — there is no change in their values because the clustering has been successful.

    • The defined number of iterations has been achieved.

    K-means algorithm example problem


    Let’s see the steps on how the K-means machine learning algorithm works using the Python programming language.
    We’ll use the Scikit-learn library and some random data to illustrate a K-means clustering simple explanation.

    Download 2.1 Mb.
    1   ...   6   7   8   9   10   11   12   13   14




    Download 2.1 Mb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Ma’lumotlarning intellektual tahlili fanidan yakuniy nazoratda tushadigan savollar mazmunini akslantirgan savollar banki

    Download 2.1 Mb.