• Hisoblash experimenti
  • 5-mavzu: Alomatlarni saralash Alomatlarni saralash
  • O’qituvchili va o’qituvchisiz modellar
  • Filtrlash usullari O’qituvchili o’rgatish Relief usuli.
  • Alomat Interval chegaralari




    Download 2,17 Mb.
    bet13/44
    Sana31.01.2024
    Hajmi2,17 Mb.
    #149710
    1   ...   9   10   11   12   13   14   15   16   ...   44
    Bog'liq
    1-ma’ruza. Berilganlarni intellektual tahliliga kirish

    Alomat

    Interval chegaralari

    Mezon qiymati

    survival

    [0.25, 7.5](7.5, 57]

    0.692

    wall-motion-score

    [5.5, 16.5](16.5, 39]

    0.315

    epss

    [0, 14.3](14.3, 40]

    0.331

    age-at-heart-attack

    [35, 64](64, 86]

    0.320

    lvdd

    [2.32, 5.15](5.15, 6.74]

    0.304

    wall-motion-index

    [1, 1.375](1.375, 3]

    0.324

    fractional-shortening

    [0.01, 0.18](0.18, 0.61]

    0.297

    mult

    [0.28, 0.812](0.812, 1.003]

    0.253

    Aniqlangan qonuniyatlar


    Agar А u holda B ( ),
    bu yerda – obyektni A shartda B o’rinligi bo’lishiga ishonch (tegishlilik fuksiyasi).
    Xulosa qoidalari:
    Agar u holda (0.716);
    Agar u holda (0.315);
    Agar u holda (0.331);
    Agar u holda (0.32);
    Agar u holda (0.304);
    Agar u holda (0.324);


    Hisoblash experimenti
    Fisher irisi tanlanmasi
    150
    5
    1 3 sinflar
    1- Setosa
    2- Versicolor
    3- Virginica
    Gul atrofining tashqi hissasining uzunligi (sepal length)
    Gul atrofining tashqi hissasining kengligi (sepal width)
    Gul atrofining ichki hissasining uzunligi (petal length)
    Gul atrofining ichki hissasining kengligi (petal width)



    1 5.7 4.4 1.5 0.4
    1 5.5 4.2 1.4 0.2
    1 5.2 4.1 1.5 0.1
    1 5.8 4.0 1.2 0.2
    1 5.4 3.9 1.7 0.4
    1 5.4 3.9 1.3 0.4
    1 5.1 3.8 1.5 0.3
    1 5.1 3.8 1.9 0.4
    1 5.1 3.8 1.6 0.2
    1 5.7 3.8 1.7 0.3
    1 5.1 3.7 1.5 0.4
    1 5.3 3.7 1.5 0.2
    1 5.4 3.7 1.5 0.2
    1 4.6 3.6 1.0 0.2
    1 4.9 3.6 1.4 0.1
    1 5.0 3.6 1.4 0.2
    1 5.0 3.5 1.3 0.3
    1 5.0 3.5 1.6 0.6
    1 5.1 3.5 1.4 0.2
    1 5.1 3.5 1.4 0.3
    1 5.2 3.5 1.5 0.2
    1 5.5 3.5 1.3 0.2
    1 4.6 3.4 1.4 0.3
    1 4.8 3.4 1.6 0.2
    1 4.8 3.4 1.9 0.2
    1 5.0 3.4 1.5 0.2
    1 5.0 3.4 1.6 0.4
    1 5.1 3.4 1.5 0.2
    1 5.2 3.4 1.4 0.2
    1 5.4 3.4 1.7 0.2
    1 5.4 3.4 1.5 0.4
    1 5.0 3.3 1.4 0.2
    1 5.1 3.3 1.7 0.5
    1 4.4 3.2 1.3 0.2
    1 4.6 3.2 1.4 0.2
    1 4.7 3.2 1.3 0.2
    1 4.7 3.2 1.6 0.2
    1 5.0 3.2 1.2 0.2
    1 4.6 3.1 1.5 0.2
    1 4.8 3.1 1.6 0.2
    1 4.9 3.1 1.5 0.1
    1 4.9 3.1 1.5 0.2
    1 4.3 3.0 1.1 0.1
    1 4.4 3.0 1.3 0.2
    1 4.8 3.0 1.4 0.1
    1 4.8 3.0 1.4 0.3
    1 4.9 3.0 1.4 0.2
    1 5.0 3.0 1.6 0.2
    1 4.4 2.9 1.4 0.2
    1 4.5 2.3 1.3 0.3
    2 6.0 3.4 4.5 1.6
    2 6.3 3.3 4.7 1.6
    2 5.9 3.2 4.8 1.8
    2 6.4 3.2 4.5 1.5
    2 7.0 3.2 4.7 1.4
    2 6.7 3.1 4.4 1.4
    2 6.7 3.1 4.7 1.5
    2 6.9 3.1 4.9 1.5
    2 5.4 3.0 4.5 1.5
    2 5.6 3.0 4.5 1.5
    2 5.6 3.0 4.1 1.3
    2 5.7 3.0 4.2 1.2
    2 5.9 3.0 4.2 1.5
    2 6.1 3.0 4.6 1.4
    2 6.6 3.0 4.4 1.4
    2 6.7 3.0 5.0 1.7
    2 5.6 2.9 3.6 1.3
    2 5.7 2.9 4.2 1.3
    2 6.0 2.9 4.5 1.5
    2 6.1 2.9 4.7 1.4
    2 6.2 2.9 4.3 1.3
    2 6.4 2.9 4.3 1.3
    2 6.6 2.9 4.6 1.3
    2 5.7 2.8 4.5 1.3
    2 5.7 2.8 4.1 1.3
    2 6.1 2.8 4.0 1.3
    2 6.1 2.8 4.7 1.2
    2 6.5 2.8 4.6 1.5
    2 6.8 2.8 4.8 1.4
    2 5.2 2.7 3.9 1.4
    2 5.6 2.7 4.2 1.3
    2 5.8 2.7 4.1 1.0
    2 5.8 2.7 3.9 1.2
    2 6.0 2.7 5.1 1.6
    2 5.5 2.6 4.4 1.2
    2 5.7 2.6 3.5 1.0
    2 5.8 2.6 4.0 1.2
    2 5.1 2.5 3.0 1.1
    2 5.5 2.5 4.0 1.3
    2 5.6 2.5 3.9 1.1
    2 6.3 2.5 4.9 1.5
    2 4.9 2.4 3.3 1.0
    2 5.5 2.4 3.8 1.1
    2 5.5 2.4 3.7 1.0
    2 5.0 2.3 3.3 1.0
    2 5.5 2.3 4.0 1.3
    2 6.3 2.3 4.4 1.3
    2 6.0 2.2 4.0 1.0
    2 6.2 2.2 4.5 1.5
    2 5.0 2.0 3.5 1.0
    3 7.7 3.8 6.7 2.2
    3 7.9 3.8 6.4 2.0
    3 7.2 3.6 6.1 2.5
    3 6.2 3.4 5.4 2.3
    3 6.3 3.4 5.6 2.4
    3 6.3 3.3 6.0 2.5
    3 6.7 3.3 5.7 2.1
    3 6.7 3.3 5.7 2.5
    3 6.4 3.2 5.3 2.3
    3 6.5 3.2 5.1 2.0
    3 6.8 3.2 5.9 2.3
    3 6.9 3.2 5.7 2.3
    3 7.2 3.2 6.0 1.8
    3 6.4 3.1 5.5 1.8
    3 6.7 3.1 5.6 2.4
    3 6.9 3.1 5.4 2.1
    3 6.9 3.1 5.1 2.3
    3 5.9 3.0 5.1 1.8
    3 6.0 3.0 4.8 1.8
    3 6.1 3.0 4.9 1.8
    3 6.5 3.0 5.8 2.2
    3 6.5 3.0 5.5 1.8
    3 6.5 3.0 5.2 2.0
    3 6.7 3.0 5.2 2.3
    3 6.8 3.0 5.5 2.1
    3 7.1 3.0 5.9 2.1
    3 7.2 3.0 5.8 1.6
    3 7.6 3.0 6.6 2.1
    3 7.7 3.0 6.1 2.3
    3 6.3 2.9 5.6 1.8
    3 7.3 2.9 6.3 1.8
    3 5.6 2.8 4.9 2.0
    3 5.8 2.8 5.1 2.4
    3 6.2 2.8 4.8 1.8
    3 6.3 2.8 5.1 1.5
    3 6.4 2.8 5.6 2.1
    3 6.4 2.8 5.6 2.2
    3 7.4 2.8 6.1 1.9
    3 7.7 2.8 6.7 2.0
    3 5.8 2.7 5.1 1.9
    3 5.8 2.7 5.1 1.9
    3 6.3 2.7 4.9 1.8
    3 6.4 2.7 5.3 1.9
    3 6.1 2.6 5.6 1.4
    3 7.7 2.6 6.9 2.3
    3 4.9 2.5 4.5 1.7
    3 5.7 2.5 5.0 2.0
    3 6.3 2.5 5.0 1.9
    3 6.7 2.5 5.8 1.8
    3 6.0 2.2 5.0 1.5

    Intervallarga bo’lish natijasi


    Sepal length:
    [0..51..149] [4,300..5,400..7,900] w=0,724{45,7} {5,93}

    Sepal width:


    [0..112..149] [2,000..3,300..4,400] w=0,493{19,94} {31,6}

    Petal length:


    [0..49..149] [1..1,9..6,9] w=1, {50,0} {0,100}

    Petal width:


    [0..49..149] [0,1..0,6..2,5] w=1{50,0} {0,100}


    5-mavzu: Alomatlarni saralash


    Alomatlarni saralash (feature selection) – bu mashina algoritmlari yordamida u yoki bu alomatning muhimligini baholash va kerakmaslarini o’chirib tashlash.
    Ko'p hollarda berilganlar to’plami ko'p sonli alomatlar o'z ichiga olgan bo’lib, ularning soni bir necha yuz yoki hatto minglab bo’lishi mumkin. Mashinani o'rganish modelini yaratishda amalda qancha sondagi alomatlar muhimligi oldindan aniq bo'lmaydi (ya'ni, maqsadli o'zgaruvchi bilan aloqasi bor) va qaysi birlai ortiqcha (yoki shovqin).
    Ortiqcha alomatlarni o’chirish berilganlarni yaxshi tushinishga imkon beradi, hamda modelni sozlash vaqtini qisqartirish, uning aniqligini oshirish va izohlashi engillashtiradi. Ayrim hollarda ushbu masala juda ham muhim rol kashf etishi mumkin, masalan, alomatlarning optimal to’plamini topish tadqiq qilinayotgan muammoning asosida yotuvchi mexanizmni ochib berishi mumkin. Bu bank reytingi, firibgarlikni aniqlash yoki tibbiy diagnostika testlari kabi turli metodologiyalarni ishlab chiqish uchun foydali bo'lishi mumkin.
    Berilganlarni tahlil qilishda alomatlarni to’g’ri saralash quyidagilarga imkon beradi:

    • mashinali o’qituvchili va o’qituvchisiz o’ragtish modellari sifatini oshiradi;

    • o’rganish vaqtini kamaytiradi va talab qilinadigan hisoblash quvvatini pasaytiradi;

    • kirivchi berilganlarning yuqori o’lchamlarida “o’lcham lan’ati” ni yumshatish imkonini beradi.

    Alomatlar muhimligini baholash model natijalarini izohlash uchun zarur bo’ladi.


    O’qituvchili va o’qituvchisiz modellar
    O’qituvchili saralash algoritmlari o’qituvchili o’rgatish masalalri ishlash sifatini yaxshilash uchun (masalan, klassifikatsiya va regressiya masalalarida) mos keluvhi alomatlarni aniqlash imkonini beradi. Bu algoritmalar uchun nishon qo’yilgan berilganlar kerak bo’ladi. Nishonlanmagan berilganlar uchun ham turli mezonlar asosida alomatlarni saralashning bir qancha usullari mavjud: dispersiya, entropiya, lokal o’xshashlik saqlab qolish qobiliyati va hakoza.
    O’qituvchisiz o’rgatishning evristik usullari yordaimida aniqlangan relevant alomatlar o’qituvchili o’rgatish modellarida ham qo’llanilib, berilganlardagi, maqsad o’zgaruvchilar bilan korrelaytsiyadan tashqari boshqa bir patternlarni aniqlash imkonini beradi.
    Alomatlarni tanlash usullari odatda 4 toifaga bo'linadi: filtrlar (filtr usullari), joylangan usullar (embedded methods), o'ramlar (wrapper methods) va gibrid usullar. Tegishli usulni tanlash har doim ham aniq emas va vazifa va mavjud berilganlar bog'liq bo’ladi.



    1. Filtrlash usullari

    O’qituvchili o’rgatish
    Relief usuli. Ushbu usul tasoddifiy ravishda tanlanmadan obrazlarni tanlaydi va u bilan ikkita eng yaqin o’z sinfidagi va qarama-qarshi sinfdagi obyektlar farqlanishlari asosida har bir alomat muhimligini qayta hisiblaydi. Agar bir sinfdagi ikkita obyektlardagi alomat qiymatlari farqlansa, uning muhimligi pasaydi va aksincha, turli sinf obyektlari uchun farqlanish kuzatilsa, alomat muhimligi oshadi.
    Alomat vazni kamayadi, agar obyekt qiymatining shu sinf obyektiga nisbatan farqlanishi boshqa sinfdagi obyektga nisbatan farqlanishdan katta bo’lsa, aks holda vazn oshadi.
    Filtrlash usullari modelni o'rgatishdan oldin qo'llaniladi va odatda nisbatan past hisoblash narxiga ega. Bularga vizual tahlil (masalan, faqat bitta qiymatga ega bo'lgan alomatni yoki aksariyat qiymatlari o’tkazib yuborilgan (to’ldirilmagan) alomatlarni olib tashlash, yarim statistik mezonlardan foydalangan holda alomatlarni baholash (dispersiya, korrelyatsiya, va boshqalar) va ekspert baholash (ma'nosi bo’yicha to'g'ri kelmaydigan yoki nokorrekt qiymatli alomatlarni o’chirish).
    Alomatlarning yaroqliligini baholashning eng oddiy usuli - bu berilganlarni razvedka tahlili bo’lib u alomatlarni quyidagi parametrlar bo’yicha alomatlarni saralab oladi:
    • o’tkazib yuborilgan qiymatlar soni (o’tkazib yuborilgan qiymatlar soni bo’sag’adan katta bo’lsa);
    • korrelyatsiya koeffitsienti (korrelyatsiya koeffitsienti bo’sag’a qiymatdan katta bo'lgan alomatlar olib tashlanadi);
    • variativlik (bitta qiymatdan iborat alomatlar o'chiriladi);
    • alomatlar ahamiyatini baholash va modelda past ahamiyatga ega alomatlar o’chiriladi.
    Nisbatan murakkab usullarda dispersiyasi berilgan qiymatdan kichik alomatlar saralab olinadi. Boshqa alogoritmlar statistik testlardan foydalangan holda prediktorlarlarning maqsad o’zgaruvchi bilan bog’liqlini baholashga asoslangan bo’lib, ko’rsatilgan sondagi va berilgan mezon eng mos keladiganlarni saralab olish imkonini beradi. Statistik test sifataida F-testi (Fisher testi) usuli ishlatiladi.
    F-test usuli ikkita massiv (ikkita alomatlar qiymatlari ketma-ketligi) o’rtasida dispersiyalar farqlanishi ahamiyatsiz ekanligining ehtimallogini beradi. Shunga ko’ra F-test usuli maqsad o’zgaruvchi va prediktorllar o’rtasida chiziqli bog’liqlik darajasini baholaydiva uni chiziqli modellarga qo’’lash maqsadga muvofiq hisoblanadi.

    Download 2,17 Mb.
    1   ...   9   10   11   12   13   14   15   16   ...   44




    Download 2,17 Mb.