Uzbekistan: Language and Culture.
Applied philology
2022/2(5)
69
ISSN 2181-922X 69
—83
Tabiiy tilni qayta ishlashda so‘zlar orasidagi
masofani aniqlash algoritmlaridan
foydalanish
Nizomaddin Xudayberganov
1
Shaxboz Hasanov
2
Abstrakt:
So‘zlar orasidagi masofa – so‘zlarning turli sifatlariga ko‘ra
tavsiflanishi mumkin. Ularning aynan tarkibiy qismiga ko‘ra o‘xshashligini
aniqlash uchun tabiiy tilni qayta ishlash yo‘nalishida turli algoritmlar taklif
qilinadi. Bu algoritmlar o‘zining ishlatilish o‘rinlari hamda unumdorligi
bilan bir-biridan farq qiladi. Asosan sohaning imlo tekshiruvi, nutqni
aniqlash hamda plagiatni aniqlash kabi yo‘nalishlarida foydalanish uchun
qo‘llaniladi. Ushbu maqolada birdan ortiq so‘zlarning o‘xshashlik masofasini
aniqlashda foydalaniladigan algoritmlar va ularga xos xususiyatlar tahlil
qilinadi.
Kalit so‘zlar: Hamming masofasi, Levenshteyin masofasi, Kosinus
o‘xshashligi, o‘xshashlik jadvali, kodlash nazariyasi.
Kirish
Tabiiy tilni qayta ishlash hamda mashinali o‘rganish
yo‘nalishlarida masofaviy o‘lchovlar muhim rol o‘ynaydi. Masofa
o‘lchovi - bu muammoli sohadagi ikkita obyekt o‘rtasidagi nisbiy farqni
umumlashtiruvchi qiymat hisoblanadi. Odatda, bu ikkita obyektni
tavsiflovchi ma’lumotlar qatoridan foydalanib maxsus algoritmlar
yordamida aniqlanuvchi qiymat sifatida qaraladi. Ma‘lumotlarning
turlariga qarab turli xil masofa o‘lchovlari tanlanishi va ishlatilishi
kerak. Shunday qilib, turli xil mashhur masofa o‘lchovlarini va
natijada olingan qiymatlarni hisoblashni bilish muhimdir. So‘zlar
orasidagi o‘xshashlik masofasi – ularning mazmunidan ko‘ra shaklan
1
Xudayberganov Nizomaddin Uktamboy oʻgʻli – Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti universiteti Kompyuter lingvistikasi va raqamli
texnologiyalar kafedrasi o‘qituvchisi.