Mashinani o’qitish turlari.
Mashinani o’qitish jarayoni chiziqli yoki nochiziqli bo’lishiga qaramasdan quyidagi bosqichlarda amalga oshiriladi:
Muammoni aniqlash.
Ma’lumotlarni tayyorlash.
Algoritmni ishlab chiqish va baholash (testlash).
Natijaviy ma’lumotlar aniqligini oshirish.
Yakuniy natijani (ishlab chiqilgan model) taqdim qilish.
Mashinali o’qitishning asosiy to’rt turi mavjud bo’lib asosan ular quyidagilardan iborat:
O’qituvchili o’qitish (Supervised learning) – bu modelni xususiyatlari aniq bo’lgan ma’lumotlar bilan o’qitish. (Regressiya, sinflashtirish).
O’qituvchisiz o’qitish (Unsupervised learning) – bu modelni xususiyatlari aniq bo’lmagan ma’lumotlar bilan o’qitish.(Klasterlash).
Semi-Supervised learning – bu modelni ham aniq ham aniq bo’lmagan xususiyatli ma’lumotlar bilan o’qitishdir.
Reinforcement – bu o’qitishning mukammal usuli bo’lib, bunda model o’zini-o’zi qayta o’qitish va natijalarni yaxshilash imkoniyatiga ega bo’ladi.
II – BOB Tanlanma tushunchasi.
1. Ushbu maqolaning maqsadi - an'anaviy statistik usullarga nisbatan iste'molchilarning tanlovlarini bashorat qilish qobiliyatida mashinani o'rganish texnikasi qanday bog'liqligi haqida empirik dalillarni taqdim etishdir. Biz an'anaviy (sodda) multinomial logitni oltita mashinani o'rganish alternativi bilan taqqoslaymiz: multinomial logitni o'rganish, tasodifiy o'rmonlar, neyron tarmoqlar, gradientni kuchaytirish, vektorli mashinalarni qo'llab-quvvatlash va ansamblni o'rganish algoritmi. Taqqoslash ushbu usullarni pivo toifasi zaxiralarini saqlash birligi (SKU) darajasidagi panel ma'lumotlariga qo'llash orqali amalga oshiriladi. Natijalar shuni ko'rsatadiki, mashinani o'rganish usullari yaxshiroq ishlaydi, lekin har doim ham emas. Ansamblni o'rganish barcha SKU sinflarida, ularning namunaviy hajmidan qat'i nazar, umumiy yuqori unumdorlikni saqlab qolish bilan eng yaxshi ishlaydi. Ushbu natija bir nechta bashorat qilish usullarini birlashtirishning eng yaxshi ishlaydigan yagona modelga tayanishining afzalliklari haqida mavjud dalillarga asoslanadi, chunki an'anaviy donolik bizni intuitiv ravishda ishonishga majbur qiladi. Umuman olganda, mahsulotni tanlashni bashorat qilishda mashinani o'rganish usullarining yaxshiroq ishlashi ajablantirmasligi kerak. Asosan, mashinani o'rganish usullari modellarning o'lchamlarini oshirish va/yoki an'anaviy yondashuvlarning torroq yo'nalishiga nisbatan kattaroq model muqobillarini skanerlash uchun mo'ljallangan.
Shunga o'xshash kontent boshqalar tomonidan ko'rilmoqda
Ko'p qatlamli perseptron va LSTM takroriy neyron tarmoqlari yordamida onlayn xaridorlarning sotib olish niyatlarini real vaqtda bashorat qilish
Tasodifiy o'rmon bo'yicha sharh: Ansambl tasniflagichi
ashinada o'qitish usullari ko'pgina sohalarda, ayniqsa amaliyotchilar orasida an'anaviy statistikaga nisbatan ustunlik qilmoqda. Ijtimoiy fanlar, jumladan marketing va iqtisod ham bundan mustasno emas. Biroq, bu ikki sohaning miqdoriy asoslari tarixan izohlash va sababiy xulosaga asoslangan bo'lib, mashinani o'rganish odatda bashorat qilishda kuchliroq, ammo izohlash va gipotezalarni tekshirishda nisbatan zaifroq deb tushuniladi. Bu qarama-qarshilik ushbu ikki fan bo'yicha ba'zi intellektual rag'batlantiruvchi falsafiy izlanishlarni keltirib chiqardi (Isxakov va boshq. 2020; Dzyabura va Yoganarasimhan 2018). Mashinani o'rganish texnikasiga asoslangan akademik marketing tadqiqotlari yangilik emas (Hauser va boshq. 2010; Kazemia va boshq. 2013; Huang va Luo 2015; Liu and Dzyabura 2016; Yoganarasimhan 2020), ammo bu baholash nuqtai nazaridan u biroz hayratlanarli darajada cheklangan. intizomning uslubiy buzilishi. Ushbu maqolaning hissasi an'anaviy statistik usullarga nisbatan iste'molchilarning tanlovlarini bashorat qilish va odatdagi iste'mol mahsuloti tanlovi kontekstida ularning ishlashning kuchli va zaif tomonlarini aniqlash qobiliyatida mashinani o'rganish usullarining keng to'plamini taqqoslash nuqtasini taqdim etishdan iborat. muammo.
An'anaviy statistik usullar va mashinani o'rganish o'rtasidagi eng katta kontseptual farq shundaki, birinchisida gipoteza stilize qilingan matematik model shaklida taklif qilinadi, keyin esa tekshiriladi; ikkinchisi esa, nazariy asoslarga aniq e'tibor bermasdan, matematik konstruksiyaning ko'proq moslashuvchanligini ta'minlaydi, chunki u bashorat qilish aniqligini maksimal darajada oshirishga harakat qiladi. Protsessual nuqtai nazardan shuni ta'kidlash mumkinki, mashinani o'rganishning nisbatan keng tarqalgan besh elementi mavjud bo'lib, ular tizimli qo'llanilishida uni an'anaviy statistikadan ajratib turadi: (1) ma'lumotlarni oldindan qayta ishlash, (2) injiniring, (3) ma'lumotlarni o'qitish va test to'plamlari, (4) o'zaro tekshirish va (5) sozlash parametrlaridan foydalanish (Kuhn and Johnson 2013). Bu, umuman olganda, an'anaviy statistika ushbu bosqichlarning hech birini qo'llamagan degani emas; lekin, ehtimol, ular kamroq markaziy va ularning qo'llash keng tarqalgan bo'lgan.
Ma'lumotlarni oldindan qayta ishlash, boshqa transformatsiyalar qatorida, ularning o'rtacha qiymatini ayirish va dispersiya statistikasiga, ko'pincha standart og'ishlarga bo'lish yo'li bilan bashorat qiluvchi xususiyatlarni markazlashtirish va masshtablashtirishga e'tibor qaratadi. Egrilikni olib tashlash ham ko'pincha ma'lumotlarga kirish xususiyatining xom ashyo qiymatlarini log, kvadrat ildiz, teskari yoki Box-Cox transformatsiyalari bilan almashtirish orqali qo'llaniladi. Yo'qotilgan qiymatlarni davolash, shuningdek, ko'pincha k-yaqin qo'shnilar kabi boshqa bashoratli mashinani o'rganish usullariga tayanadigan hisoblash texnikasi bilan to'qnash keladi. Xom ma'lumotlarni manipulyatsiya qilishning asosiy sabablaridan biri mashinani o'rganish parametrlarini baholash bilan bog'liq yuqori hisoblash talablarining silliqligi, tezligi va raqamli barqarorligiga hissa qo'shishdir.
Xususiyat muhandisligi ham mashinani o'rganishga xos emas, balki an'anaviy statistikaga nisbatan hamma joyda mavjud. Aslida, asosiy komponentlar yoki omil tahlili kabi usullar amaliy statistikada modellarning o'lchamlarini kamaytirish usullari sifatida keng tarqalgan bo'lib, boshqa afzalliklar qatorida multikollinearlik va haddan tashqari moslashishni kamaytiradi. Biroq, machi
2. Mashinani o'rganish modelini ishlab chiqishda ma'lumotlar to'plamidagi faqat bir nechta o'zgaruvchilar modelni yaratish uchun foydalidir, qolgan xususiyatlar esa ortiqcha yoki ahamiyatsiz. Agar biz ma'lumotlar to'plamini ushbu ortiqcha va ahamiyatsiz xususiyatlar bilan kiritsak, bu modelning umumiy ishlashi va aniqligiga salbiy ta'sir ko'rsatishi va kamaytirishi mumkin. Shuning uchun ma'lumotlardan eng mos xususiyatlarni aniqlash va tanlash va ahamiyatsiz yoki kamroq muhim xususiyatlarni olib tashlash juda muhim, bu mashinani o'rganishda xususiyatlarni tanlash yordamida amalga oshiriladi.
1 – rasim
Xususiyatlarni tanlash mashinani o'rganishning muhim tushunchalaridan biri bo'lib, u modelning ishlashiga katta ta'sir qiladi. Mashinani o'rganish "Garbage In Garbage Out" kontseptsiyasida ishlayotganligi sababli, yaxshi natijaga erishish uchun biz doimo modelga eng mos va mos ma'lumotlar to'plamini kiritishimiz kerak.
Ushbu mavzuda biz mashinani o'rganish uchun turli xil xususiyatlarni tanlash usullarini muhokama qilamiz. Ammo bundan oldin, keling, birinchi navbatda xususiyatlarni tanlashning ba'zi asoslarini tushunib olaylik.
Xususiyatlarni tanlash nima?
Xususiyatlarni tanlash zarurati
Xususiyatlarni tanlash usullari/usullari
Xususiyatlarni tanlash statistikasi
Xususiyatlarni tanlash nima?
Xususiyat - bu muammoga ta'sir qiladigan yoki muammo uchun foydali bo'lgan atribut va model uchun muhim xususiyatlarni tanlash xususiyat tanlash deb nomlanadi. Har bir mashinani o'rganish jarayoni asosan ikkita jarayonni o'z ichiga olgan xususiyat muhandisligiga bog'liq; Xususiyatlarni tanlash va xususiyatni ajratib olish. Xususiyatlarni tanlash va chiqarish jarayonlari bir xil maqsadga ega bo'lishi mumkin bo'lsa-da, ikkalasi ham bir-biridan butunlay farq qiladi. Ularning orasidagi asosiy farq shundaki, xususiyatlarni tanlash asl xususiyatlar to'plamining pastki to'plamini tanlash bilan bog'liq bo'lib, xususiyatlarni ajratib olish yangi xususiyatlarni yaratadi. Xususiyatlarni tanlash - bu modeldagi ortiqcha moslashishni kamaytirish uchun faqat tegishli ma'lumotlardan foydalangan holda model uchun kirish o'zgaruvchisini kamaytirish usuli.
o, biz xususiyatni tanlashni quyidagicha belgilashimiz mumkin: "Bu model yaratishda ishlatiladigan eng mos va tegishli xususiyatlarning quyi to'plamini avtomatik yoki qo'lda tanlash jarayonidir." Xususiyatlarni tanlash muhim xususiyatlarni kiritish yoki ma'lumotlar to'plamidagi ahamiyatsiz xususiyatlarni ularni o'zgartirmasdan chiqarib tashlash orqali amalga oshiriladi.
Xususiyatlarni tanlash zarurati
Har qanday texnikani qo'llashdan oldin, uni tushunish, texnikaga ehtiyoj va shunga o'xshash xususiyatlarni tanlash juda muhimdir. Ma'lumki, mashinani o'rganishda yaxshi natijalarga erishish uchun oldindan ishlangan va yaxshi kiritilgan ma'lumotlar to'plamini taqdim etish kerak. Biz modelimizni o'rgatish va uni yaxshiroq o'rganishga yordam berish uchun katta hajmdagi ma'lumotlarni yig'amiz. Odatda, ma'lumotlar to'plami shovqinli ma'lumotlardan, ahamiyatsiz ma'lumotlardan va foydali ma'lumotlarning bir qismidan iborat. Bundan tashqari, katta hajmdagi ma'lumotlar modelni o'qitish jarayonini ham sekinlashtiradi va shovqin va ahamiyatsiz ma'lumotlar bilan model bashorat qilmasligi va yaxshi ishlamasligi mumkin. Shunday qilib, ma'lumotlar to'plamidan bunday shovqinlarni va unchalik muhim bo'lmagan ma'lumotlarni olib tashlash va buni amalga oshirish juda zarur va Xususiyatlarni tanlash usullari qo'llaniladi.
Eng yaxshi xususiyatlarni tanlash modelning yaxshi ishlashiga yordam beradi. Misol uchun, biz ehtiyot qism uchun qaysi mashinani maydalash kerakligini avtomatik ravishda hal qiladigan model yaratmoqchimiz va buning uchun bizda ma'lumotlar to'plami bor. Ushbu maʼlumotlar toʻplamida avtomobil modeli, yili, egasining ismi, Millar mavjud. Shunday qilib, ushbu ma'lumotlar to'plamida egasining nomi modelning ishlashiga hissa qo'shmaydi, chunki u avtomobilni maydalash yoki yo'qligini hal qilmaydi, shuning uchun biz ushbu ustunni olib tashlashimiz va qolgan xususiyatlarni (ustun) tanlashimiz mumkin. namunaviy qurilish.
Mashinani o'rganishda xususiyat tanlashdan foydalanishning ba'zi afzalliklari quyida keltirilgan:
Bu o'lchovlilik la'natidan qochishga yordam beradi.
Bu tadqiqotchilar tomonidan oson talqin qilinishi uchun modelni soddalashtirishga yordam beradi.
Bu mashg'ulot vaqtini qisqartiradi.
Bu ortiqcha moslashishni kamaytiradi, shuning uchun umumlashtirishni kuchaytiradi.
Xususiyatlarni tanlash texnikasi
Xususiyatlarni tanlash texnikasining asosan ikki turi mavjud, ular:
Nazorat qilinadigan xususiyatni tanlash texnikasi
Nazorat qilinadigan xususiyatni tanlash usullari maqsadli o'zgaruvchini ko'rib chiqadi va etiketli ma'lumotlar to'plami uchun ishlatilishi mumkin.
Nazoratsiz xususiyatni tanlash texnikasi
Nazorat qilinmagan funksiyalarni tanlash usullari maqsadli oʻzgaruvchiga eʼtibor bermaydi va etiketlanmagan maʼlumotlar toʻplami uchun ishlatilishi mumkin.
– rasim Nazorat qilinadigan xususiyatni tanlashda asosan uchta texnika mavjud:
O'rash usullari
O'rash metodologiyasida xususiyatlarni tanlash uni qidirish muammosi sifatida ko'rib chiqish yo'li bilan amalga oshiriladi, unda turli kombinatsiyalar tayyorlanadi, baholanadi va boshqa kombinatsiyalar bilan taqqoslanadi. Xususiyatlarning quyi to'plamidan iterativ ravishda foydalanish orqali algoritmni o'rgatadi.
3 – rasim
Modelning chiqishi asosida xususiyatlar qo'shiladi yoki ayiriladi va bu xususiyatlar to'plami bilan model yana o'qitiladi.
O'rash usullarining ba'zi texnikalari:
Oldinga tanlash - Oldinga tanlash iterativ jarayon bo'lib, bo'sh xususiyatlar to'plamidan boshlanadi. Har bir iteratsiyadan so'ng, u xususiyatni qo'shishni davom ettiradi va unumdorlikni yaxshilaydi yoki yo'qligini tekshirish uchun unumdorlikni baholaydi. Jarayon yangi o'zgaruvchi/xususiyat qo'shilishi modelning ishlashini yaxshilamaguncha davom etadi.
Orqaga yo'q qilish - Orqaga yo'q qilish ham iterativ yondashuvdir, lekin u oldinga tanlashga qarama-qarshidir. Ushbu uslub barcha xususiyatlarni hisobga olgan holda jarayonni boshlaydi va eng kam ahamiyatli xususiyatni olib tashlaydi. Ushbu yo'q qilish jarayoni xususiyatlarni olib tashlash modelning ishlashini yaxshilamaguncha davom etadi.
Xususiyatlarni to'liq tanlash - To'liq xususiyatni tanlash eng yaxshi xususiyat tanlash usullaridan biri bo'lib, har bir xususiyat to'plamini qo'pol kuch sifatida baholaydi. Bu shuni anglatadiki, bu usul har bir mumkin bo'lgan xususiyatlar kombinatsiyasini sinab ko'radi va yaratadi va eng yaxshi funksiyalar to'plamini qaytaradi.
Rekursiv xususiyatni yo'q qilish -
Rekursiv xususiyatlarni yo'q qilish - bu rekursiv ochko'z optimallashtirish yondashuvi bo'lib, bu erda xususiyatlar kichikroq va kichikroq xususiyatlar to'plamini rekursiv olish orqali tanlanadi. Endi har bir xususiyat to'plami bilan baholovchi o'qitiladi va har bir xususiyatning ahamiyati koef_atributi yoki xususiyat_muhimlar_atributi orqali aniqlanadi.
Filtr usulida xususiyatlar statistik ko'rsatkichlar asosida tanlanadi. Bu usul o'rganish algoritmiga bog'liq emas va dastlabki ishlov berish bosqichi sifatida xususiyatlarni tanlaydi.
Filtrlash usuli tartiblash orqali turli ko'rsatkichlardan foydalangan holda modeldagi ahamiyatsiz xususiyat va ortiqcha ustunlarni filtrlaydi.
Filtrlash usullaridan foydalanishning afzalligi shundaki, u kam hisoblash vaqtini talab qiladi va ma'lumotlarga ortiqcha mos kelmaydi.
4 – rasim
Filtrlash usullarining ba'zi umumiy texnikalari quyidagilardan iborat:
Ma'lumot olish
Chi-kvadrat testi
Fisherning reytingi
Etishmayotgan qiymat nisbati
Axborot yutug'i: Ma'lumotlar to'plamini o'zgartirishda entropiyaning kamayishi ma'lumotlarning ortishi aniqlanadi. Maqsadli o'zgaruvchiga nisbatan har bir o'zgaruvchining ma'lumot daromadini hisoblash orqali xususiyatni tanlash usuli sifatida foydalanish mumkin.
Chi-kvadrat testi: Chi-kvadrat testi kategorik o'zgaruvchilar o'rtasidagi munosabatni aniqlash usulidir. Ki-kvadrat qiymati har bir xususiyat va maqsadli o'zgaruvchi o'rtasida hisoblab chiqiladi va eng yaxshi ki-kvadrat qiymatiga ega bo'lgan xususiyatlarning kerakli soni tanlanadi.
Fisherning reytingi:
Fisher balli xususiyatlarni tanlashning mashhur nazorat qilinadigan usullaridan biridir. U baliqchi mezonlari bo'yicha o'zgaruvchining darajasini kamayish tartibida qaytaradi. Keyin biz katta baliqchi ball bilan o'zgaruvchilarni tanlashimiz mumkin.
Etishmayotgan qiymat nisbati:
Yo'qotilgan qiymat nisbati qiymati chegara qiymatiga nisbatan o'rnatilgan xususiyatni baholash uchun ishlatilishi mumkin. Yo'qolgan qiymat nisbatini olish formulasi - bu har bir ustundagi etishmayotgan qiymatlar soni kuzatuvlarning umumiy soniga bo'linadi. O'zgaruvchining o'chirilishi mumkin bo'lgan chegara qiymatidan ko'prog'i bor.
O'rnatilgan usullar past hisoblash narxi bilan birga xususiyatlarning o'zaro ta'sirini hisobga olgan holda filtr va o'rash usullarining afzalliklarini birlashtirdi. Bu filtrlash usuliga o'xshash tez ishlov berish usullari, lekin filtrlash usuliga qaraganda aniqroq.
5 – rasim
Bu usullar, shuningdek, iterativ bo'lib, har bir iteratsiyani baholaydi va ma'lum bir iteratsiyada mashg'ulotlarga eng ko'p hissa qo'shadigan eng muhim xususiyatlarni optimal tarzda topadi. O'rnatilgan usullarning ba'zi texnikalari:
Tartibga solish - tartibga solish, modelga haddan tashqari mos kelmaslik uchun mashinani o'rganish modelining turli parametrlariga jazo muddatini qo'shadi. Ushbu jazo muddati koeffitsientlarga qo'shiladi; shuning uchun u ba'zi koeffitsientlarni nolga qisqartiradi. Nol koeffitsientga ega bo'lgan xususiyatlar ma'lumotlar to'plamidan olib tashlanishi mumkin. Regularizatsiya texnikasining turlari L1 Regularization (Lasso Regularization) yoki Elastik Nets (L1 va L2 Regularization).
Tasodifiy o'rmon ahamiyati - Xususiyatlarni tanlashning turli xil daraxtga asoslangan usullari bizga xususiyatlarni tanlash usulini taqdim etishda xususiyat ahamiyatini aniqlashga yordam beradi. Bu erda xususiyat ahamiyati model yaratishda qaysi xususiyat ko'proq ahamiyatga ega ekanligini yoki maqsadli o'zgaruvchiga katta ta'sir ko'rsatishini belgilaydi. Tasodifiy o'rmon - bu daraxtga asoslangan usul bo'lib, u turli xil sonli qaror daraxtlarini birlashtiradigan sumkalar algoritmining bir turidir. U avtomatik ravishda tugunlarni barcha daraxtlardagi nopoklikning (Gini nopokligi) ishlashi yoki kamayishi bo'yicha tartiblaydi. Tugunlar nopoklik qiymatlari bo'yicha joylashtirilgan va shu bilan ma'lum bir tugun ostidagi daraxtlarni kesish imkonini beradi. Qolgan tugunlar eng muhim xususiyatlarning kichik to'plamini yaratadi.
3. Xususiyatlarni tanlash usulini qanday tanlash mumkin?
Mashinani o'rganish muhandislari uchun qaysi xususiyatni tanlash usuli ularning modeli uchun to'g'ri ishlashini tushunish juda muhimdir. O'zgaruvchilarning ma'lumotlar turlarini qanchalik ko'p bilsak, xususiyatlarni tanlash uchun mos statistik o'lchovni tanlash osonroq bo'ladi.
6 – rasim
Buni bilish uchun biz birinchi navbatda kirish va chiqish o'zgaruvchilari turini aniqlashimiz kerak. Mashinani o'rganishda o'zgaruvchilar asosan ikki turga bo'linadi:
Raqamli o'zgaruvchilar: butun, float kabi uzluksiz qiymatlarga ega o'zgaruvchi
Kategorik o'zgaruvchilar: mantiqiy, tartibli, nominal kabi kategorik qiymatlarga ega o'zgaruvchilar.
Quyida filtrga asoslangan xususiyatni tanlash uchun ishlatilishi mumkin bo'lgan ba'zi bir o'zgaruvchan statistik o'lchovlar mavjud:
1. Raqamli kiritish, raqamli chiqish:
Raqamli kirish o'zgaruvchilari bashoratli regressiyani modellashtirish uchun ishlatiladi. Bunday holatda ishlatiladigan umumiy usul korrelyatsiya koeffitsienti hisoblanadi.
Pearson korrelyatsiya koeffitsienti (Chiziqli korrelyatsiya uchun).
Spearmanning daraja koeffitsienti (chiziqli bo'lmagan korrelyatsiya uchun).
2. Raqamli kiritish, toifali chiqish:
Raqamli kiritish kategoriyali chiqish bilan bashoratli modellashtirish muammolarini tasniflashda qo'llaniladi. Bunday holda, korrelyatsiyaga asoslangan usullarni ham qo'llash kerak, ammo aniq natijaga ega.
ANOVA korrelyatsiya koeffitsienti (chiziqli).
Kendallning daraja koeffitsienti (chiziqli bo'lmagan).
3. Kategoriyali kiritish, raqamli chiqish:
Bu kategorik kiritish bilan regressiyani bashorat qiluvchi modellashtirish holati. Bu regressiya muammosining boshqa misolidir. Biz yuqoridagi holatda muhokama qilingan bir xil choralarni qo'llashimiz mumkin, ammo teskari tartibda.
4. Kategoriyali kiritish, kategoriyali chiqish:
Bu toifali Kirish o'zgaruvchilari bilan tasniflashni bashorat qiluvchi modellashtirish holati.
Bunday holatda keng tarqalgan usul Chi-squared testidir. Bu holatda biz ma'lumot olishdan ham foydalanishimiz mumkin.
|