|
Mavzu: Kiberxavfsizlikda ma’lumotlarni qazib olish modellari va usullari (Naiv Bayes usuli) Ishning maqsadi
|
Sana | 20.01.2024 | Hajmi | 20,41 Kb. | | #141906 |
Bog'liq Mashinali o\'qitish 1-amaliy
Mavzu: Kiberxavfsizlikda ma’lumotlarni qazib olish modellari va usullari (Naiv Bayes usuli)
Ishning maqsadi: Spamni aniqlash uchun sodda Bayes klassifikatoridan foydalanish ko'nikmalariga ega bo'lish.
Nazariy qism:
Hozirgi vaqtda spam elektron pochta xabarlari engil tirnash xususiyatidan axborot xavfsizligi uchun eng jiddiy tahdidlardan biriga aylandi. Keraksiz xabarlar alohida pochta qutilarini bosib oladi va serverlarni falaj qiladi. Xodimlarning spam-xabarlarni tahlil qilish va o'qishga sarflash vaqti doimiy ravishda o'sib bormoqda - bu bilan kompaniyalarning moliyaviy yo'qotishlari ham.
Teorema Bayes formulasi bilan ifodalanadi:
- X sabab yuzaga kelganda H gipotezasi ehtimoli
- gipoteza H to'g'ri bo'lsa, X sababining mavjudligi ehtimoli
- H gipotezasining oldingi ehtimoli
– X sababining yuzaga kelish ehtimoli
Ushbu formula noaniqlik sharoitida ishlashga mo'ljallangan ko'plab zamonaviy sun'iy intellekt tizimlariga asoslanadi. Bunday tizimlar ehtimollik baholashni ta'minlaydi, shuning uchun ular odatda mutaxassisni almashtirmaydi, balki qaror qabul qilishda uni qo'llab-quvvatlaydi.
Amaliy qism
Misol: Ishonch uchun, foydalanuvchining elektron pochtasida bor-yo'g'i 200 ta xabar bor, deb faraz qilaylik va u Spam jildiga 30 ta xabarni joylashtirgan (mos ravishda 170 ta xabar spam emas) - qarang. Ba'zi so'zlar spam bo'lmaganlarga qaraganda tez-tez spamda paydo bo'lishini sezishingiz mumkin. Biz ularni o'z ichiga olgan xat spam ekanligini ko'rsatadigan ko'rsatkichlar sifatida foydalanishga harakat qilamiz. Masalan, spam ko'pincha ofis maydonini ijaraga olish takliflarini o'z ichiga oladi. Elektron pochtada "xona" so'zi tez-tez uchramaydi. Misol uchun, xuddi shu foydalanuvchining elektron pochtasida "xona" so'zini o'z ichiga olgan faqat 10 ta xabar bo'lsin. Ma'lumki, agar "xona" so'zi bo'lgan xabarlar spam va spam bo'lmaganlar o'rtasida ularning soniga mutanosib ravishda taqsimlansa, xabarda "xona" so'zining mavjudligi va uning tegishli ekanligi o'rtasida hech qanday bog'liqlik yo'q. spam, ya'ni bu so'z xabarni Spam jildiga joylashtirish uchun ko'rsatkich bo'la olmaydi. Biroq, chastotalarni hisoblab, siz spamlar orasida "xona" so'zi spam bo'lmaganlarga qaraganda ancha tez-tez paydo bo'lishini ko'rishingiz mumkin.
Chastota
|
"" so'zini o'z ichiga oladimi?
|
|
|
Ha
|
Yo’q
|
|
Spam
|
8
|
12
|
20
|
Ne-spam
|
6
|
172
|
180
|
Hammasi
|
12
|
208
|
220
|
Biz Bayes formulalaridan foydalanamiz. Belgilaymiz:
A = {“xona” so’zini o’z ichiga olgan xabar}
H1 = {Spam hisoblanayotgan xabar}
H2 = (Spam hisoblanmayotgan xabar}
Jadvalni to’ldiramiz:
№
|
p(Hi)
gipotezalarning
oldingi
ehtimolliklari
|
p(A|Hi)
|
p(A|Hi) p(Hi)
|
p(Hi|A) = p(A|Hi) p(Hi)/p(A)
gipotezalarning
keying
ehtimolliklari
|
1
|
0.09
|
8/30
|
0,27
|
0,27 / 0,3 = 0,9
|
2
|
0.9
|
6/180
|
0,03
|
0,02 / 0,05 = 0,1
|
|
1
|
|
P(A)=0,3
|
1
|
Shunday qilib, ehtimollik ("xona" so'zi bo'lgan xabar spam bo'lishi) 90% ni tashkil qiladi. (Shunday qilib, bu spam emasligi ehtimoli = 0,1. Bu sizga pochta dasturingizni "xona" so'zi bo'lgan harflar spam bo’lishi ham mumkin yoki mumkin emas.
|
| |