Modellashtirish
Ma'lumotlarimiz yaxshi va tayyor ekanligiga ishonch hosil qilgandan so'ng, modelimizni yaratishni davom ettirishimiz mumkin. Ushbu daftarda biz har xil algoritmga ega 4 xil modelni qurishga harakat qilamiz. Ushbu bosqichda biz sklearn tomonidan o'rnatilgan standart parametrlardan foydalangan holda har bir algoritm uchun asosiy modelni yaratamiz va barcha 4 modelimizni qurgandan so'ng, qaysi biri bizning holatimizga mos kelishini ko'rish uchun ularni solishtiramiz.
Modelimizni baholash uchun biz chalkashlik matritsasidan baholash uchun asos sifatida foydalanamiz.
Bunday holda, biz modelimizning eslab qolish qiymatiga e'tibor qaratmoqchimiz, chunki bizning muammomizda imkon qadar ko'proq haqiqiy ijobiy narsalarni bashorat qilishga harakat qilishimiz kerak. Chunki aslida depozit qo'ymoqchi bo'lgan mijozning noto'g'ri tasnifi imkoniyat/daromadni yo'qotishi mumkin.
Quyida biz har bir o'qitilgan modelni va yuqorida aytib o'tilgan ko'rsatkichlar bilan baholash uchun yordamchi funktsiyani aniqlaymiz va ballni o'zgaruvchiga saqlaymiz.
Modelni optimallashtirish
Ushbu daftarning keyingi qismida biz scikit-learn kutubxonasida mavjud giper parametrlarni sozlash orqali RandomForest modelimizni optimallashtirishga harakat qilamiz. Optimal parametrlarni topgandan so'ng, biz yangi modelimizni oldingi bazaviy modelimiz bilan taqqoslash orqali baholaymiz.
GridSearchCV yordamida giperparametrni sozlash
Biz modelimiz uchun optimal parametrni topish uchun sklearn-dan GridSearchCV funksiyasidan foydalanamiz. Biz o'zimizning asosiy modelimizni (rf_grids deb nomlanadi), baholash usulini (bizning holatimizda avval aytib o'tilganidek, eslab qolishdan foydalanamiz), shuningdek, modelimiz bilan sinab ko'rmoqchi bo'lgan turli parametrlar qiymatini taqdim etamiz. Keyin GridSearchCV funksiyasi har bir parametr kombinatsiyasi orqali eng yaxshi baholash parametrlarini topish uchun takrorlanadi.
Ushbu funktsiya, shuningdek, modelimizni o'rgatish uchun o'zaro tekshiruvdan foydalanishga imkon beradi, bunda har bir iteratsiyada bizning ma'lumotlarimiz 5 ga bo'linadi (raqam parametrdan sozlanishi mumkin). Keyin modellar ma'lumotlarning 4/5 qismiga o'rgatiladi va yakuniy katlamani tasdiqlash ma'lumoti sifatida qoldirib ketadi, bu jarayon bizning barcha qatlamlarimiz tasdiqlash ma'lumoti sifatida foydalanilmaguncha 5 marta takrorlanadi.
Modelni taqqoslash
Quyidagi kod bizning original Tasodifiy o'rmon modelimiz va uning optimallashtirilgan versiyasi bilan oldingi kabi chizmani chizadi. Shuningdek, u bizning optimallashtirilgan modelimiz asl nusxadan yaxshiroq ishlashini aniqlashga yordam berish uchun har bir baholash ko'rsatkichlari bo'yicha o'zgarishlarni chop etadi.
Saqlash modeli
Biz o'z modelimizni qaytadan foydalanish uchun saqlashimiz mumkin. Keyin ushbu model boshqa mashinaga yuklanishi mumkin, bu esa butun o'quv jarayonini qayta bajarmasdan, yangi bashorat qilish imkonini beradi.
|