|
Alisher Navoiy nomidagi ToshkentBog'liq abduraxmonova-u.r.-matnni-qayta-ishlash-va-tahlil-qilish-usullari (5)Alisher Navoiy nomidagi Toshkent
davlat o„zbek tili va adabiyoti
universiteti
“KOMPYUTER LINGVISTIKASI:
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Respublika I ilmiy-texnikaviy konferensiya
Vol. 1
№. 01 (2021)
http://compling.navoiy-uni.uz/
97
morfologiya) har bir so'zning xususiyatlarini o'z ichiga olgan holda bitta katta
lug'at qurilishini nazarda tutadi, masalan rus tili uchun bunday lug'at A.A. asosida
tuzilgan. Misol uchun rus tilidagi Zaliznyak grammatik lug'atida 8 milliondan ortiq
so'zlar mavjud. Ushbu yondashuvni amalga oshirish nisbatan sodda, ammo u ikkita
muhim kamchiliklarga ega. Birinchidan, tizim faqat lug'atdagi so'zlarni tahlil
qiladi. Ikkinchida, ko'plab tillarda ushbu so'z boyligi juda katta bo'ladi.
So'zlarni tahlil qilishning muqobil yondashuvi (noaniq morfologiya) qoidalar
tizimidan foydalanishdir, unga ko'ra ma'lum bir so'z uchun uning xususiyatlari
taxmin qilinadi. Ushbu yondashuvning kamchiligi shundaki, u har doim ham
natijalarning 100% aniqligini kafolatlay olmaydi.
To'liq matnli izlashda va matnlarni tasniflash vazifalarida so'zlarni to'liq
morfologik tahlilini o'tkazish talab qilinmaydi, faqat ko'rsatilgan ikkita so'z aslida
bir so'zning shakllari ekanligini tekshirib chiqadi. Bu asosiy so'z shakliga
qisqartirish yoki so'zlarning ba'zi o'zgarmas qismlarini ajratib ko'rsatishdan iborat
bo'lgan stemming yordamida amalga oshirish mumkin. Biroq, morfologik tahlil,
lemmatizatsiya va stemming har doim ham "xavfsizlik" va "himoya" kabi bir-
biriga bog'liq so'zlarni aniqlay olmaydi. Bog'liq so'zlarni aniqlashda maxsus
tezaurus lug'atlari yordamida hal etiladi. Ikki so'zning yaqinlik grafasini ikkita mos
keladigan birlashtirma eng qisqa yo'l asosida aniqlanadi. Agar so'zlarning
kontekstini hisobga olish zarur bo'lsa, unda vazifa ancha murakkablashadi va uni
semantik matnni qayta ishlashga kiritish kerak bo‘ladi. So'zlarning bog'lanishini
aniqlashning avtomatlashtirilgan usullari mavjud bo‘lib, birgalikda yuzaga kelish
chastotasi yoki ulardan foydalanish sharoitlarining tasodifiylik darajasiga
asoslanadi. Tekshirish paytida manba matnidagi so'zlar ketma-ketligini daraxtga
o'xshash ierarxiyaga aylantiradi, bunda barglar alohida so'zlarga, tugunlar so'zlar
guruhiga, yoylar so'zlar va so'zlar guruhlari o'rtasidagi munosabatlarga mos keladi.
Ushbu o'zgartirish tilning ma'lum bir grammatikasi asosida amalga oshiriladi, bu
asosan qat'iy qoidalar to'plami hisoblanadi. Grammatikalardan foydalanish aniq
qiyinchiliklar bilan bog'liq bo‘lib- tabiiy til uchun uni tavsiflovchi qoidalar tizimini
ishlab chiqish va qiyinchilik tug‘diradigan ayniqsa murakkab morfologik model va
o'zboshimchalik bilan so'z tartibiga ega bo'lgani (masalan, rus tili) uchun qiyin
ko‘rinadi. Bundan tashqari, inson tomonidan yozilgan matnlarning aksariyat
qismida xato yoki tipografik xatoliklar mavjud bo‘ladi. Shu sababli har qanday
grammatika qo'llanilmasligi mumkin yani urinishlar va xatolarning barcha mumkin
bo'lgan variantlarini hisobga olishga natija bermaydi.
Rus tilidagi matnni tahlil qilish tizimlarining aksariyati turli xil
|
| |