|
Kompyuter injiniringi ” fakultеti
|
bet | 2/2 | Sana | 31.05.2024 | Hajmi | 85,85 Kb. | | #258172 |
Bog'liq 4-mustaqil ish AL VA TQP(Y=1|X) yoki P(Y=0|X)
Mustaqil X o'zgaruvchisi berilgan Y qaram o'zgaruvchining ehtimolini hisoblab chiqadi .
Bu so'zning ijobiy yoki salbiy ma'noga ega bo'lish ehtimolini hisoblash uchun ishlatilishi mumkin (0, 1 yoki orasidagi shkalada). Yoki u fotosuratdagi ob'ektni (daraxt, gul, o't va boshqalar) aniqlash uchun ishlatilishi mumkin, har bir ob'ektga 0 dan 1 gacha bo'lgan ehtimollik beriladi.
Naive Bayes
Naive Bayes ma'lumotlar nuqtasi ma'lum bir toifaga tegishli yoki yo'qligini hisoblab chiqadi. Matnni tahlil qilishda u so'z yoki iboralarni oldindan o'rnatilgan "teg" (Sinflashtirish) ga tegishli yoki yo'q deb Sinflashtirish uchun ishlatilishi mumkin. Masalan:
Bir iborani "sport" deb belgilash kerakmi yoki yo'qligini hal qilish uchun siz hisoblashingiz kerak:
Yoki... A ning ehtimoli, agar B rost bo‘lsa, B ning ehtimoliga, agar A rost bo‘lsa, A ning rost bo‘lish ehtimolini B ning rost bo‘lish ehtimoliga bo‘linadi .
K-eng yaqin qo'shnilar
K-yaqin qo'shnilar (k-NN) namunani aniqlash algoritmi bo'lib , kelajakdagi misollarda eng yaqin qarindoshlarini topish uchun o'quv ma'lumotlar to'plamidan foydalanadi .
K-NN Sinflashtirishda foydalanilganda, siz ma'lumotlarni eng yaqin qo'shni toifasiga joylashtirish uchun hisoblaysiz. Agar k = 1 bo'lsa, u 1 ga yaqin sinfga joylashtiriladi. K o'z qo'shnilarining ko'plik so'rovi bilan tasniflanadi.
Qaror daraxti
Qarorlar daraxti - bu Sinflashtirish muammolari uchun mukammal bo'lgan nazorat ostidagi o'rganish algoritmi, chunki u aniq darajadagi darslarni buyurtma qila oladi. U oqim diagrammasi kabi ishlaydi, ma'lumotlar nuqtalarini bir vaqtning o'zida ikkita o'xshash toifaga ajratadi "daraxt tanasi" dan "novdalar" dan "barglar"gacha, bu erda toifalar bir-biriga o'xshash bo'ladi. Bu toifalar ichida toifalarni yaratadi, bu esa cheklangan inson nazorati bilan organik Sinflashtirish imkonini beradi.
Sport misolida davom etish uchun qaror daraxti shunday ishlaydi:
Tasodifiy o'rmon
Tasodifiy o'rmon algoritmi qarorlar daraxtining kengayishi bo'lib, siz avval o'quv ma'lumotlari bilan ko'plab qaror daraxtlarini qurasiz, so'ngra yangi ma'lumotlaringizni daraxtlardan biriga "tasodifiy o'rmon" sifatida joylashtirasiz.
U, aslida, ma'lumotlaringizni ma'lumotlar shkalasi bo'yicha eng yaqin daraxtga ulash uchun o'rtacha hisoblanadi. Tasodifiy o'rmon modellari foydali bo'ladi, chunki ular qarorlar daraxtining toifadagi ma'lumotlar nuqtalarini keraksiz ravishda "majburlash" muammosini hal qiladi.
Vektorli mashinalarni qo'llab-quvvatlash
Qo'llab-quvvatlovchi vektor mashinasi (SVM) ma'lumotlarni qutblilik darajasida o'rgatish va Sinflashtirish uchun algoritmlardan foydalanadi va uni X/Y prognozidan yuqori darajaga olib chiqadi.
Oddiy vizual tushuntirish uchun biz ikkita tegdan foydalanamiz: qizil va ko'k , ikkita ma'lumot xususiyatiga ega: X va Y , so'ngra klassifikatorimizni X/Y koordinatasini qizil yoki ko'k sifatida chiqarishga o'rgating .
Keyin SVM teglarni eng yaxshi ajratib turadigan giperplanni tayinlaydi. Ikki o'lchovda bu oddiygina chiziq. Chiziqning bir tomonidagi hamma narsa qizil , boshqa tomonida esa ko'k . Masalan, hissiyotlarni tahlil qilishda bu ijobiy va salbiy bo'ladi .
Mashinani o'rganishni maksimal darajada oshirish uchun har bir teg orasidagi masofa eng katta bo'lgan eng yaxshi giperplandir:
Biroq, ma'lumotlar to'plamlari murakkablashgani sababli, ma'lumotlarni ikkita lagerga Sinflashtirish uchun bitta chiziq chizish mumkin bo'lmasligi mumkin:
SVM dan foydalanib, ma'lumotlar qanchalik murakkab bo'lsa, bashoratchi shunchalik aniq bo'ladi. Yuqoridagini uch o'lchamda tasavvur qiling, Z o'qi qo'shiladi, shuning uchun u aylanaga aylanadi.
Eng yaxshi giperplan bilan ikki o'lchovga qaytarilganda, u quyidagicha ko'rinadi:
SVM ko'p o'lchovli bo'lgani uchun aniqroq mashinani o'rganish imkonini beradi.
4 Sinflashtirish algoritmlarini qo'llash
Xo'sh, endi biz Sinflashtirish ortidagi matematikani biroz tushunamiz, ammo bu mashinani o'rganish algoritmlari real dunyo ma'lumotlari bilan nima qila oladi?
Hissiyot tahlili
Elektron pochta spamlari tasnifi
Hujjatlarning tasnifi
Tasvir tasnifi
Hissiyot tahlili
Tuyg'ularni tahlil qilish - bu matnni (fikr, his-tuyg'u yoki hissiyot) Ijobiy , Salbiy yoki Neytral qutblilik shkalasi bo'yicha matn yoki butun matn ichidagi so'zlarga belgilaydigan matnni tahlil qilish usuli .
U avtomatik ravishda bir necha daqiqada minglab sahifalarni o'qiy oladi yoki ijtimoiy tarmoqlarda siz haqingizda postlarni doimiy ravishda kuzatib boradi. Quyidagi tvit, masalan, xabar almashish ilovasi, Slack , barcha individual bayonotlarni Ijobiy deb olish uchun tahlil qilinadi . Bu kompaniyalarga real vaqt rejimida mahsulot relizlari va marketing kampaniyalarini kuzatish, mijozlarning qanday munosabatda bo'lishini ko'rish imkonini beradi.
Mashinani o'rganishning ilg'or algoritmlaridan foydalangan holda, hissiyotlarni tahlil qilish modellari istehzo va noto'g'ri ishlatilgan yoki noto'g'ri yozilgan so'zlar kabi narsalarni o'qishga o'rgatish mumkin. To'g'ri o'qitilgandan so'ng, modellar odamlarga kerak bo'ladigan vaqtning bir qismida doimiy aniq natijalarni beradi.
MonkeyLearnning oldindan o'rgatilgan hissiyotlarni Sinflashtirish vositasini sinab ko'rish uchun darhol sho'ng'in . Yoki o'zingizning biznesingiz tili va ehtiyojlariga qarab o'zingizning hissiyot tasniflagichingizni qanday yaratishni o'rganing.
Elektron pochta spamlari tasnifi
Sinflashtirishning eng keng tarqalgan qo'llanilishidan biri, to'xtovsiz ishlaydigan va odamlarning o'zaro ta'siriga ehtiyoj sezmasdan, elektron pochta spamlarini Sinflashtirish bizni zerikarli o'chirish vazifalaridan va hatto ba'zan qimmat fishing firibgarliklaridan qutqaradi.
Elektron pochta ilovalari elektron pochtani qabul qiluvchiga mo'ljallanmagan yoki kiruvchi spam bo'lish ehtimolini hisoblash uchun yuqoridagi algoritmlardan foydalanadi. Matnni tahlil qilishning Sinflashtirish usullaridan foydalangan holda, spam xatlar oddiy kirish qutisidan o'chiriladi: ehtimol qabul qiluvchining ismi noto'g'ri yozilgan yoki ba'zi firibgarlik kalit so'zlari ishlatilgan.
Spam tasniflagichlari hali ham ma'lum darajada o'qitilishi kerak, chunki spam papkasida tugaydigan elektron pochta ro'yxatiga ro'yxatdan o'tishda hammamiz boshdan kechirganmiz.
Hujjatlarning tasnifi
Hujjatlarni Sinflashtirish - hujjatlarni mazmuniga ko'ra toifalarga ajratish. Ilgari bu kutubxona fanlarida yoki qo'lda buyurtma qilingan yuridik fayllarda bo'lgani kabi, qo'lda amalga oshirilgan. Biroq, mashinani o'rganish Sinflashtirish algoritmlari buni avtomatik ravishda amalga oshirishga imkon beradi.
Hujjatlarni Sinflashtirish matn tasnifidan farq qiladi, chunki faqat so'zlar yoki iboralar emas, balki butun hujjatlar tasniflanadi. Bu onlayn qidiruv tizimlaridan foydalanishda, huquqiy hujjatlardagi mavzularni o'zaro bog'lashda va dori va tashxis bo'yicha sog'liqni saqlash yozuvlarini qidirishda amalda qo'llaniladi.
Tasvir tasnifi
Tasvir tasnifi berilgan rasmga avval o‘qitilgan toifalarni belgilaydi. Bular rasmning predmeti, raqamli qiymat, mavzu va boshqalar boʻlishi mumkin. Tasvir tasnifi koʻp yorliqli tasvir tasniflagichlaridan ham foydalanishi mumkin, ular koʻp yorliqli matn tasniflagichlariga oʻxshab ishlaydi , masalan, oqim tasvirini belgilash uchun, "oqim", "suv", "tashqi havoda" va boshqalar kabi turli teglarga.
Nazorat ostidagi o'rganish algoritmlaridan foydalanib , modelingizni mos toifalarga o'rgatish uchun tasvirlarni belgilashingiz mumkin. Mashinani o'rganishning barcha modellarida bo'lgani kabi, uni qanchalik ko'p o'rgatsangiz, u shunchalik yaxshi ishlaydi.
|
| |