Ehtimollarni hisoblash mexanizmi




Download 1,84 Mb.
bet4/10
Sana13.02.2024
Hajmi1,84 Mb.
#155943
1   2   3   4   5   6   7   8   9   10
Bog'liq
intellektualnyy-algoritm-identifikatsii-destruktivnoy-informatsii-v-tekste (1).ru.uz

Ehtimollarni hisoblash mexanizmi


Keling, qismni ko'rib chiqaylikma'lum so'zlar to'plamidan tashkil topgan X matni { X1, ..., Xi, ..., Xn},
i= 1, …, n, bu erda X - matnning vektor tasviri; n - matndagi so'zlar soni. Taklif etilayotgan algoritmda belgilar bo'yicha taqqoslash qo'llanilganligi sababli satrning har bir belgisini alohida qayta ishlash zarur. Shunga ko'ra, biz har biri uchun belgini kiritamiz

matn so'zlari
Xi, unda chekli sonli belgilar mavjud:

X {Xi, …, Xi, …, Xi},
q 1, …, m,

    1. 1 q m

bu erda m - so'zdagi harflar soni.
Keyin lug'at so'zlari to'plamining vektor ko'rinishi sifatida tavsiflanadi

C {C1, …, Cj, …, Ck},
bu erda k - lug'atdagi so'zlar soni.
j 1, …, k,

Cj lug'atidagi har bir so'z uchun belgilar vektori quyidagi shaklga ega bo'ladi:
C {Cj, …, Cj, …, Cj}, w  1, …, t,

    1. 1 w t

bu erda t - lug'at so'zidagi harflar soni.
So'zni uyatsiz deb tasniflashning aniqligini oshirish uchun ikkita so'zni har bir belgi bilan taqqoslashda tahlil qilinayotgan so'zning uzunligi lug'at so'zining uzunligidan oshib ketishiga yo'l qo'ymaslik kerak. Bunday holda, qo'shimcha belgilarni kesib tashlash kerak. Keyin kerakli ehtimollik

ity - tahlil qilinayotgan so'zning Cj lug'atidagi so'z belgilariga mos keladigan belgilar sonining so'zdagi harflar soniga nisbati:
Xi, mos ravishda

→ →

Pi
Xi Cj j  1, …, m, agar m  t bo‘lsa,


i 1,..., n,
(1)



v m j 1,..., t boshqa hollarda,
bu erda v - har ikki so'zning hisoblangan yig'indisining indeksi; m - so'zdagi belgilar soni;
t– lug‘atdagi so‘zdagi belgilar soni; n - matndagi so'zlar soni.
Algoritm doirasida biz chegara nuqtasi sifatida ma'lum bir Pp - chegara qiymatini qabul qilamiz,

v
tizim o'rnatadigan hisoblangan Pi ehtimolini taqqoslash asosida
matnda buzg'unchi ma'lumotlarning mavjudligi yoki yo'qligi fakti.Ushbu ko'rsatkichning empirik tarzda o'rnatilgan kritik qiymatini [0,5; 1]. Keyin
X matnini vayron qiluvchi (D) yoki buzilmaydigan (nD) sinfiga belgilash ehtimoli


P maksimal Pi  X D agar P  P bo‘lsaP,
(2)

v
i X nD
boshqa hollarda.

Shunday qilib, topilgan ehtimollik P va chegara qiymati Pp o'rtasida taqqoslash amalga oshirilgandan so'ng, tizim matnni buzg'unchi yoki buzilmaydigan deb aniqlaydi.
Intellektual algoritmning ajralmas bosqichi lug'atni to'ldirish jarayonidir.Normativ bo'lmagan so'zlar sinfiga kiruvchi matnda topilgan so'z, agar uning ushbu sinfga tasniflanish ehtimoli qiymati Pc chegara qiymatini qondirsa, yangi bo'ladi. Empirik tarzda aniqlangan bu ma'no mavjud lug'at so'zlaridan faqat hol yoki ko'plik shaklida farq qiladigan so'zlarni kesish uchun zarurdir. Keling, diapazonni olaylik [0,5; 0.75] Shunday qilib, lug'at faqat quyidagi shartlarda yangi so'zlar bilan yangilanadi:
→ → i
Xi C, agar Pv PBilan,
→ →

Xi C VboshqaXholatlar.
Qachon so'zlarni qabihlik deb tasniflash ehtimolini hisoblash asosida


Pi P


v Bilan
tizim odobsiz so'zlar lug'atini avtomatik ravishda to'ldiradi. Ushbu jarayonni optimallashtirish uchun faqat yangi qo'shilgan so'zlarni hisobga olgan holda mutaxassis tomonidan lug'atning to'g'riligini vaqti-vaqti bilan tekshirib turish tavsiya etiladi.

Download 1,84 Mb.
1   2   3   4   5   6   7   8   9   10




Download 1,84 Mb.