26-Amaliyot
Mavzu: Klassifikatorlar. Klassifikatorni baholash
Ishdan maqsad: Talabalarni mashinali o`qitish jarayonida qo`llanilladigan
klassifikatsiya algoritmlari bilan tanishtirish hamda
ularda nazariy va amliy
ko`nikmalar hosil qilish.
Nazariy qism.
Klassifikatsiya
- bu g'oyalar va obyektlarni oldindan belgilangan toifalarga
guruhlash
jarayoni. Oldindan
toifalangan
o'quv
ma'lumotlar
to'plamidan
foydalangan holda, mashinani o'rganish dasturlari kelajakdagi ma'lumotlar
to'plamlarini toifalarga ajratish uchun turli xil algoritmlardan foydalanadi.
Mashinani
o'rganishda klassifikatsiya
algoritmlari keyingi
ma'lumotlarning
oldindan belgilangan toifalardan biriga tushish ehtimolini
bashorat qilish uchun
kirish o'rgatish ma'lumotlaridan foydalanadi. Klassifikatsiyaning eng keng
tarqalgan usullaridan biri elektron pochta xabarlarini "spam" yoki "spam
bo'lmagan" ga filtrlashdir.
Klassifikatsiya "naqshlarni tanib olish" shakli bo'lib, kelajakdagi ma'lumotlar
to'plamlarida bir xil naqshni (o'xshash so'zlar yoki his-tuyg'ular,
raqamlar ketma-
ketligi va boshqalar) topish uchun o'quv ma'lumotlariga klassifikatsiya algoritmlari
qo'llaniladi.
Mashina o'rganishda eng yaxshi 5 ta klassifikatsiya algoritmlari
Statistikada tasnifni o'rganish juda keng va biz ishlayotgan ma'lumotlar to'plamiga
qarab foydalanishimiz mumkin bo'lgan klassifikatsiya algoritmlarining bir nechta
turlari mavjud. Quyida mashinani o'rganishda eng keng
tarqalgan beshta algoritm
mavjud.
Ommabop tasnif algoritmlari:
•
Logistik regressiya
•
Naive Bayes
•
K-Eng yaqin qo'shnilar
•
Qaror
daraxti
•
Vektorli mashinalarni qo'llab-quvvatlash
Amaliy qism.
Ko'krak saratoni dunyodagi eng keng tarqalgan saraton hisoblanadi. Bu barcha
saraton holatlarining 25 foizini tashkil qiladi. Ko'krak saratoni ko'krakdagi
hujayralar nazoratsiz o'sishidan boshlanadi. Ushbu
hujayralar odatda rentgen
nurlari orqali ko'rish mumkin bo'lgan o'simtalarni tahlil qilish orqali aniqlanadi.
Tahlilni amalga oshirish uchun “breast-cancer.csv” faylini import qilamiz.
Dataset ko'krakdagi o'simta haqida ma'lumotlarni jamlagan. “diagnosis” ustuni esa
o'simta rak (M - malignant) yoki rak emas (B - benign) anglatadi.
Keling bu qiymatlarni 0 va 1 ga o'zgartiramiz. M->1, B->0
Buning
uchun
yoki sklearn tarkibidagi LabelEncoder dan
yoki pandas dagi .replace() metodidan foydalanish mumkin. Biz ikkisini ham
qoldiramiz.
ID ustunini tashlab yuboramiz