Lug'at so'zlari
Unigramlar
|
Anor
|
Uzum
|
olma
|
Banan
|
olma
|
0
|
0
|
0,667
|
0
|
bog'lar
|
0
|
0
|
0
|
0
|
sayyora
|
0
|
0
|
0
|
0
|
tutmoq
|
0
|
0
|
0
|
0
|
besh
|
0
|
0
|
0
|
0
|
millionlab
|
0
|
0
|
0
|
0
|
gektar
|
0,167
|
0
|
0
|
0
|
g'alati
|
0
|
0
|
0
|
0
|
meva
|
0
|
0
|
0
|
0
|
daraxt
|
0
|
0
|
0
|
0
|
olmalar
|
0
|
0
|
0,833
|
0
|
ushlab turadi
|
0
|
0
|
0
|
0
|
juda ko'p
|
0
|
0
|
0
|
0
|
vitaminlar
|
0
|
0,25
|
0
|
0
|
Agar unigrammaning uzunligi lug'at so'zining uzunligidan katta bo'lsa, unigrammadagi ortiqcha belgilar oxiridan kesiladi. Masalan, "olma" (9 belgi) va "anor" (6 belgi). Belgilar soni mos kelmasligi sababli, biz "olma daraxti" dan oxirgi 3 ta harfni chiqaramiz. Biz olamiz: "olma daraxti".
4-qadam. (2) formuladan foydalanib, tahlil qilinayotgan matnni tegishli sinfga berish ehtimoli aniqlanadi:
Pmaks0,167; 0,25; 0,667; 0,833 0,833.
Qadam 5. Ehtimollar chegara qiymati bilan taqqoslanadi: P = 0,833 P ∈ Pn.
Shunday qilib, matn avtomatik ravishda halokatli (D) sinfiga kiradi.
6-qadam: Lug'atni yangilash. Ushbu misolda chegara qiymatidan kattaroq ehtimollik bilan ikkita unigram topildi: "olma daraxtlari", "olma". Shuning uchun ular haqorat sifatida tasniflanadi. Ushbu unigrammalarni lug'atga qo'shishning maqsadga muvofiqligini aniqlash kerak. Bunday holda, ushbu so'zlarni uyatsiz deb tasniflash ehtimoli Pc chegara qiymati bilan taqqoslanadi. Ma'lum bo'lishicha, "olma daraxti" so'zi nafaqat
odobsiz so'z, lekin ayni paytda yangi. Bu shuni anglatadiki, bu so'z lug'atga qo'shilishi kerak. Shunga ko'ra, taklif qilingan algoritm ishlaganda, lug'at o'z-o'zidan to'ldiriladi.
Algoritmning samaradorligi va aniqligini aniqlash uchun 100 ta test o'tkazildialgoritm ketma-ketligi. Sinov natijalaridan ma'lum bo'lishicha, 65 ta matnda behayo so'zlar lug'atidan so'zlar, shu jumladan lug'atdagi so'zlardan olingan 12 ta so'z shakllari mavjud. Natijada, so'zni o'z ichiga olgan tahlil qilingan matnlar 100% aniqlandi (aniqlangan minimal ehtimollik 0,589). Shunga ko‘ra, 65 ta matn buzg‘unchi deb tasniflandi va lug‘at 12 ta so‘z bilan kengaytirildi. Shaklda. 4-rasmda aqlli algoritm natijalarini aks ettiruvchi ishlab chiqilgan dastur shakli ko'rsatilgan.
Guruch. 4. Intellektual algoritm natijalari
O'tkazilgan tajribalar algoritmning ishlashida hech qanday nosozliklarni aniqlamadi va uning samaradorligini isbotladi.
Xulosa
Maqolada lug'atdagi buzg'unchi so'zlarni o'zgartirilgan qidirish uchun aqlli algoritm ko'rinishida amalga oshirilgan so'kinish misolidan foydalanib, matn ma'lumotlaridagi buzg'unchi tarkibni qidirish va aniqlash yondashuvi tasvirlangan. Taklif etilayotgan algoritmning asosiy xususiyatlaridan biri o'z-o'zini o'rganish qobiliyati, ya'ni lug'atni mustaqil ravishda to'ldirishdan iborat bo'lgan foydalanuvchi muammolarini tahlil qilish va hal qilishda tizim tomonidan to'plangan tajribaga asoslangan yangi bilimlarni avtomatik ravishda olishdir. Ishlash jarayonida bu xususiyat algoritm samaradorligini yanada oshirishga olib keladi.
|