|
Logistik regressiya va softmax regressiyasi
|
bet | 4/5 | Sana | 14.01.2024 | Hajmi | 48,42 Kb. | | #137184 |
Bog'liq M.I 4Logistik regressiya va softmax regressiyasi
Logistik regressiya - bu taxminiy o'zgaruvchilar asosida ikkilik javob o'zgaruvchisini modellashtirish uchun ishlatiladigan statistik usul. Dastlab ikki sinfli yoki ikkilik javob muammolari uchun ishlab chiqilgan bo'lsa-da, bu usulni ko'p sinfli masalalar uchun umumlashtirish mumkin. Shunga qaramay, bizning misolimizdagi o'sma namunalari ma'lumotlari ikkitomonlama javob yoki ikki sinfli muammodir.
Boshqa tomondan, Softmax regressiyasi ko'p sinfli sinflashtirish algoritmidir maqsadli o'zgaruvchi ikkitadan ortiq mumkin bo'lgan natijalarga ega bo'lganda. U ehtimollikni modellashtiradi kirishga softmax funksiyasini o'rnatish orqali har bir mumkin bo'lgan sinfga tegishli kirishning Xususiyatlari. Softmax funktsiyasi a ni chiqaradigan logistik funktsiyaning kengaytmasidir barcha mumkin bo'lgan sinflar bo'yicha ehtimollik taqsimoti. Softmax regressiyasi ham o'qitilishi mumkin. Maksimal ehtimollikni baholashdan foydalangan holda va model parametrlari optimallashtiriladi bashorat qilingan ehtimollar va haqiqiy belgilar o'rtasidagi farqni minimallashtirish.
Logistik va softmax regressiyasi ham sinflashtirish vazifalari uchun mashhur algoritmlardir. Ularning soddaligi, samaradorligi va tushunarliligi uchun. Ular turli sohalarda keng qo'llaniladi tasvir tasnifi, Biroq, ular murakkab yoki yuqori chiziqli bo'lmagan ma'lumotlarda yaxshi ishlamasligi mumkin va xususiyatlari muhandislik yoki neyron tarmoqlar kabi murakkabroq modellarni talab qilishi mumkin yuqori aniqlikka erishish.
Ishlashni baholash mashinani o'rganishda muhim qadam bo'lib, u baholashni o'z ichiga oladi o'qitilgan modelning aniqligi va umumlashtirish qobiliyati. Bir necha usullar mavjud mashinani o'rganish modelining ishlashini baholash uchun, shu jumladan:
1. O'quv va test to'plamlari: Ushbu yondashuvda mavjud ma'lumotlar to'plami ikki qismga bo'linadi: o'quv to'plami va test to'plami. Model o'quv majmuasi va uning ishlashi bo'yicha o'qitiladi test majmuasida baholanadi. Ushbu usulning afzalligi shundaki, u o'lchovni ta'minlaydi model ko'rinmas ma'lumotlarga qanchalik yaxshi umumlashtirilganligi.
2. O'zaro tekshirish: o'zaro tekshirish - bu qiymatni baholash uchun ishlatiladigan qayta namuna olish usuli modelning ishlashi. Bu ma'lumotlar to'plamini k kichik to'plamga bo'lish va o'qitishni o'z ichiga oladi model k marta, har safar test to'plami va qolganlari sifatida boshqa kichik to'plamdan foydalaniladi quyi to'plamlar o'quv to'plami sifatida. Keyin ishlash k iteratsiya bo'yicha o'rtacha hisoblanadi. Ushbu usul ma'lumotlar to'plami kichik bo'lsa va ishonchliroq taxminni taqdim etganda foydalidir modelning ishlashi haqida.
3.Tartibsizlik matritsasi: tartibsizlik matritsasi - bu ish faoliyatini umumlashtiruvchi jadval bashorat qilingan teglarni haqiqiy teglar bilan solishtirish orqali tasniflash modeli.
4. ROC egri chizig'i va AUC balli: ROC (Qabul qiluvchining ishlash xarakteristikasi) egri chizig'i haqiqiy ijobiy stavkaning (TPR) noto'g'ri musbat ko'rsatkichga (FPR) nisbatan syujeti tasniflash chegaralari. AUC (egri chiziq ostidagi maydon) balli bitta raqamdan iborat barcha mumkin bo'lgan tasniflash chegaralarida modelning ishlashini umumlashtiradi. Bu usul odatda ikkilik tasniflash muammolari uchun ishlatiladi.
5. Aniqlik-eslab qolish egri chizig'i: Aniqlik-eslash egri chizig'i aniqlik va eslab qolishning syujetidir turli tasniflash chegaralari. Bu modelning ko'proq ma'lumotli o'lchovini beradi muvozanatsiz ma'lumotlar to'plamlari uchun ishlash.
Tegishli baholash usulini tanlash o'ziga xos xususiyatlarga bog'liq ma'lumotlar to'plami va mavjud muammo. Savdolarni diqqat bilan ko'rib chiqish muhimdir turli usullar o'rtasida va olish uchun bir nechta baholash ko'rsatkichlaridan foydalanish modelning ishlashini har tomonlama tushunish.
Mashinani o'rganishda tartibsizlik matritsasi
Mashinani o'rganishda tartibsizlik matritsasi a ning ishlashini umumlashtiruvchi jadvaldir bashorat qilingan teglarni haqiqiy teglar bilan solishtirish orqali sinflashtirish modeli. Buning bir usuli tasniflash natijalarini tasavvur qiling va model qanchalik yaxshi ishlashini tushuning. Tartibsizlik matritsasi to'rtta qiymatdan iborat: haqiqiy ijobiy (TP), noto'g'ri musbat (FP), haqiqiy salbiy (TN) va noto'g'ri salbiy (FN). Bu qiymatlar quyidagilarga asoslanadi ta'riflar:
Haqiqiy ijobiy (TP): Model ijobiy sinfni to'g'ri bashorat qiladi.
Noto‘g‘ri musbat (FP): Haqiqiy sinf bo‘lganda model ijobiy sinfni bashorat qiladi salbiy.
Haqiqiy salbiy (TN): Model salbiy sinfni to'g'ri bashorat qiladi.
False Negative (FN): Model haqiqiy sinf bo'lganda salbiy sinfni bashorat qiladi ijobiy.
tartibsizlik matritsasi odatda jadval formatida taqdim etiladi, bu erda haqiqiy sinf belgilari mavjud qatorlarda, bashorat qilingan sinf belgilari esa ustunlarda keltirilgan. Matritsadan turli xil ishlash ko'rsatkichlarini hisoblash uchun foydalanish mumkin, masalan, aniqlik, aniqlik, eslab qolish. Ikkilik sinflashtirish muammosi uchun tartibsizlik matritsasiga misol:
Ushbu tartibsizlik matritsasidan foydalanib, biz turli xil ishlash ko'rsatkichlarini quyidagicha hisoblashimiz mumkin:
Aniqlik: (TP + TN) / (TP + FP + TN + FN)
Aniqlik: TP / (TP + FP)
Eslab qoling: TP / (TP + FN)
F1 balli: 2 * Aniqlik * Eslab qolish / (Aniqlik + Qayta chaqirish)
tartibsizlik matritsasi tasniflash samaradorligini baholash uchun foydali vositadir. Model, ayniqsa sinflarning taqsimlanishi bo'lmagan nomutanosib ma'lumotlar to'plamlari uchun forma. U modelning tasnifini aniq va aniq ifodalaydi natijalar va modelni yaxshilash kerak bo'lgan sohalarni aniqlashga yordam beradi.
|
| |