Tabiiy tilni qayta ishlashda so‘zlar orasidagi masofani aniqlash algoritmlaridan foydalanish
79
1- matnda 3 ta daftar va 4 ta ruchka uchragani bois, daftar 3
va ruchka so‘zi esa 4 soni bilan almashtiriladi hamda (3;4) nuqtasi
hosil qilinadi. Xuddi shunday usulda 2-matndan mos ravishda
(8;6) nuqtasi hosil qilinadi. So‘ngra koordinatalar boshiga nisbatan
vektorlar hosil qilinib, ular orasidagi burchak kosinusi hisoblanadi.
Kosinus o‘xshashligi =
ga teng.
Bundan tashqari ko‘proq so‘zlardan tashkil topgan matnlar
orqali so‘zlarning takrorlanish darajalarini quyidagicha jadvalga
mos ravishda joylashtirib chiqiladi.
Hosil bo‘lgan so‘zlardan tashkil topgan setlar hosil qilinadi
hamda ular orqali umumiy kalit so‘zlarga ega to‘plam yasaladi.
Qiymatlarni maxsus vektorlarga aylantirish orqali yuqorida berilgan
formuladan foydalanib kosinus o‘xshashligi hisoblab chiqiladi
[https://www.itl.nist.gov].