|
Teglarning ketma-ketligi ehtimoli yoxud n-gramma usuliBog'liq AbjalovaM.KorpLing.Uslubiyqollanma (1) 2. Teglarning ketma-ketligi ehtimoli yoxud n-gramma usuli.
Stoxastik usulning mazkur yondashuvi tegger berilgan teglar ketma-
ketligining qoʻllanilish ehtimolini hisoblaydi. Ketma-ketlik oʻlchovi,
ya’ni
n
(bigram – ikki element ketma-ketligi, trigram – uch ketma-ket
teg, 4 gram – toʻrt teg ketma-ketligi) teglarga asoslangani uchun bu
yondashuv N-gramma usuli ham deyiladi. N-gramma – matnlarga
Manzura Abjalova
~ 36 ~
avtomatik ishlov berishda keng qo‘llaniladigan matematik hisob
vositasidir.
Yashirin Markov modeli
stoxastik usulda faol qoʻllaniladi
.
1960-
yillarda Baum L.E. va uning hamkasblari tomonidan ishlab chiqilgan
mazkur usul statistik jarayonda yuzaga keladigan barcha variantlar
ehtimolligini hisobga olishga yordam beradi. Masalan, ma’lum bir
matnda ot turkumiga oid so‘zlar bog‘lovchiga nisbatan tez-tez va ko‘p
uchrasa, unda ayni kontekstda mavjud omonim katta ehtimollik bilan
bog‘lovchi emas, ot turkumiga oid so‘z bo‘ladi, keyingi ehtimollikda
bog‘lovchi sifatida hisobga olinadi. Kontekstni tavsiflash uchun N-
grammadan foydalaniladi. N-gramma – so‘zlar yoki teglar kabi N-
identifikator elementlarning ketma-ketligini ifodalaydi.
Soʻz turkumlarini stoxastik teglash usuli xususiyatlari
Stoxastik PoS-tegerlar quyidagi xususiyatlarga ega:
1)
Mazkur teglashtirish teglarning ketma-ket qoʻllanish darajasi
boʻyicha ehtimolligiga asoslanadi.
2)
Ta’lim korpusi talab qilinadi.
3)
Korpusda mavjud boʻlmagan soʻzlar uchun hech qanday
ehtimollik boʻlmaydi.
4)
Ta’lim korpusidan tashqari boshqa tur til korpusidan ham
foydalanish mumkin.
5)
Eng oddiy ST teglash usuli, chunki bu usulda til korpusidagi faol
tarzda ketma-ket qoʻllangan teglarni tanlab oladi.
|
| |