|
Research and education
|
bet | 2/4 | Sana | 13.05.2024 | Hajmi | 83,95 Kb. | | #228563 |
Bog'liq 162-171 KIRISH
Logistik regressiya regressiya emas, balki tasniflashni o‘rganish algoritmidir. Bu nom statistik ma’lumotlardan kelib chiqqan va logistik regressiyaning matematik formulasi chiziqli regressiyaga o‘xshashligi bilan bog‘liq.
Logistik regressiyaning mohiyatini misol tariqasida binar tasniflash yordamida tushuntiriladi. Biroq, u tabiiy ravishda kо‘p sinfli tasnifga kengaytirilishi mumkin.
Logistik regressiyaning maqsadi: 𝑦𝑖 ni 𝑥𝑖 ning chiziqli funksiyasi sifatida modellash, ammo 𝑦𝑖 ning ikkilik qiymatlari uchun bu unchalik oson emas. 𝑤𝑥𝑖 + 𝑏 kabi xususiyatlarning chiziqli birikmasi minus cheksizlikdan plus cheksizlikka o‘tadigan funktsiyadir, 𝑦𝑖 esa faqat ikkita mumkin bo‘lgan qiymatga ega.
Kompyuterlar bo‘lmagan va barcha hisob-kitoblarni qo‘lda bajarish kerak bo‘lgan bir paytda, olimlar chiziqli tasniflash modellarini afzal ko‘rdilar. O‘shanda ular agar manfiy belgini 0, musbat belgini 1 deb belgilasangiz, (0, 1) diapazonli oddiy uzluksiz funksiyani topish kifoya ekanligini payqashdi. Bunday holda, agar x namunasi uchun model tomonidan qaytarilgan qiymat 0 ga yaqinroq bo‘lsa, unga salbiy belgi beriladi; aks holda, namuna ijobiy deb belgilanadi. Ushbu xususiyatga ega bo‘lgan funksiyalardan biri standart logistik funktsiyadir (logistik sigmasimon deb ham ataladi):
𝑓(𝑥) = 1 1+𝑒−𝑥
(1)
bu yerda e - natural logarifmning asosi (eyler soni deb ham ataladi; 𝑒 −𝑥 qiymati dasturlash tillarida exp(x) funksiyasi sifatida ham tanilgan). Uning grafigi 1-rasmda ko‘rsatilgan.
Logistik regressiya modeli quyidagi ko‘rinishga ega:
𝑓𝑤,𝑏
(𝑥) ≝ 1
1+𝑒−(𝑤𝑥+𝑏)
(2)
Ko‘rib turganingizdek, chiziqli regressiyadan tanish wx + b atamasi bu yerda ishlatilgan.
1-rasm. Standart logistika funksiyasi
Standart logistik funksiyaning syujetini ko‘rib chiqsangiz, u bizning tasniflash maqsadimizga qanchalik mos kelishini ko‘rishingiz mumkin: agar biz w va b qiymatlarini mos ravishda optimallashtirsak, f (x) natijasini 𝑦𝑖 ijobiy qiymatga ega bo‘lish ehtimoli sifatida talqin qilish mumkin. Masalan, agar u chegara qiymati 0,5 dan katta yoki unga teng bo‘lsa, biz x sinfini ijobiy, yani musbat deb aytamiz; aks holda bu salbiy, yani manfiy sinf bo‘ladi. Amalda, hal qilinayotgan muammoga qarab, boshqa chegara qiymatlari tanlanishi mumkin.
Endi w* va b* parametrlarning optimal baholarini qanday topish mumkinligi masalasini o‘rganamiz. Chiziqli regressiyada o‘rtacha kvadrat xato (mean squared error, MSE) deb ham ataladigan o‘rtacha kvadrat yo‘qotish funksiyasi sifatida aniqlangan empirik xavf minimallashtiriladi.
Logistik regressiyada, chiziqli regressiyadan farqli o‘laroq, o‘quv to‘plamining ehtimolliligi modelga muvofiq maksimal darajaga ko‘tariladi. Statistikada, ehtimollilik funksiyasi bizning modelimizga ko‘ra kuzatuv (namuna) qanchalik ehtimoli borligini aniqlaydi.
Misol uchun, o‘quv majmuamizda yorliqli namuna (𝑦𝑖 𝑥𝑖) bor deylik. Bunda parametrlarimiz uchun ham ba’zi bir aniq qiymatlarni topdik (tanladik) deb faraz qilaylik. Endi biz 𝑥𝑖 ga (2) tenglama yordamida modelni qo‘llasak, qandaydir qiymatga ega bo‘lamiz 0 < p < 1. Agar 𝑦𝑖 musbat sinf bo‘lsa, bizning modelimiz bo‘yicha
𝑦𝑖musbat sinf bo‘lish ehtimoli p bilan beriladi. Xuddi shunday, agar 𝑦𝑖 manfiy sinf bo‘lsa, uning manfiy sinf bo‘lish ehtimoli 1 - p bilan beriladi.
|
| |