65
baholash uchun o‘lchash usuliga ega bo‘lish yaxshi hisoblanadi. Ichki baholash o‘lchash
usuli har qanday ilovadan mustaqil ravishda til modeli sifatini o‘lchaydigan ko‘rsatkichdir.
Til modelini ichki baholash uchun test to‘plami kerak. Ko‘pgina
statistik modellarda
bo‘lgani kabi, n-gram modelining ehtimolligi ham o‘qitish korpusidan kelib chiqadi. Keyin
n-gramm modelining sifatini test to‘plami yoki test korpusi bilan o‘lchash mumkin.
Shunday qilib, agar bitta matn korpusi berilgan va ikki xil n-gram til modelini
solishtirish lozim bo‘lsa, matn korpusi o‘qitish va test to‘plamlariga ajratiladi. Ikkala til
modelining parametrlari o‘qitish to‘plamida o‘qitiladi va o‘qitilgan modellar qanchalik
yaxshi ekanligi test to‘plamida solishtiriladi. Qaysi model test to‘plamida
yuqoriroq
ehtimollikni ko‘rsatsa yaxshiroq model hisoblanadi.
Baholash ko‘rsatkichi test to‘plamining ehtimolligiga asoslanganligi sababli, test to‘plami
jumlalarini o‘qitish to‘plamiga kiritmaslik kerak. Ma’lum test to‘plami jumlasining
ehtimolligini hisoblashga harakat qilinadi. Agar test to‘plamidagi jumla o‘qitish
to‘plamining bir qismi bo‘lsa, sun’iy ravishda yuqori ehtimollik aniqlanadi. Bu holatni test
to‘plamida o‘qitish deb ataladi. Test to‘plami bo‘yicha o‘qitish ehtimolliklarni yuqori
bo‘lishiga olib keladigan xatolikni keltirib chiqaradi.
Ba’zan ma’lum bir test to‘plamidan shunchalik ko‘p foydalaniladiki,
uning
xususiyatlariga moslashib qolinadi. Shunda haqiqatan ham yangi test to‘plamiga zarurat
tug‘iladi. Bunday hollarda dastlabki test to‘plamini ishlab chiqish test to‘plami yoki
devset
deb atash mumkin. Ma’lumotlar o‘qitish, ishlab chiqish va test to‘plamlariga ajratiladi. Test
to‘plami imkon qadar katta bo‘lishi lozim, chunki kichik test to‘plamining samarasi kichik
bo‘ladi. Shu kabi imkon qadar o‘qitish to‘plami ham katta bo‘lishi lozim. Hech bo‘lmaganda,
ikkita til modellari o‘rtasidagi statistik muhim farqlarni o‘lchash uchun yetarli samarani
beradigan test to‘plamini tanlash kerak. Amalda ko‘pincha ma’lumotlarning 80% o‘qitish,
10% ishlab chiqish va 10% test to‘plamlariga ajratiladi. O‘qitish va test to‘plamlariga
ajratmoqchi bo‘lgan katta korpusni hisobga olinsa, test to‘plami
korpus ichidagi uzluksiz
matn ketma-ketligidan olinishi mumkin.
Amalda til modellarini baholash uchun o‘lchov sifatida ehtimollikdan foydalanilmaydi,
chalkashlik (perplexity, PPL) deb ataladigan o‘lchov mavjud. Test to‘plamidagi til
modelining chalkashligi so‘zlar soni bilan normallashtirilgan test to‘plamining teskari
ehtimolligiga teng. Test to‘plami uchun
W = w
1
w
2
...w
N
,
:
N
N
N
N
w
w
w
P
w
w
w
P
W
perplexity
...
(
1
)
...
(
)
(
2
1
1
2
1
(1)
W
ning ehtimolligini oshirish uchun zanjir qoidasidan foydalanish mumkin:
N
N
i
i
i
w
w
w
P
W
perplexity
1
1
1
...
|
(
1
)
(
(2)
W
test to‘plamining chalkashligi qaysi til modelidan foydalanishga bog‘liq.
W
ning
unigram
til modeli bilan chalkashligi, unigram ehtimolliklarining o‘rtacha geometrigiga
teng:
N
N
i
i
w
P
W
perplexity
1
)
(
1
)
(
(3)
Bigram til modeli bilan hisoblangan
W
ning chalkashligi hali ham o‘rtacha geometrik
bo‘lib qolmoqda, ammo bigram ehtimolliklarining o‘rtacha geometrigiga teng:
N
N
i
i
i
w
w
P
W
perplexity
1
1
)
|
(
1
)
(
(4)
E’tibor berilsa, 2-formulada so‘z ketma-ketligining shartli ehtimolligi
qanchalik yuqori
bo‘lsa, chalkashlik shunchalik past bo‘ladi. Shunday qilib, chalkashlikni minimallashtirish
til modeliga muvofiq test to‘plamining ehtimolligini maksimal darajada oshirishga tengdir.
66
Ushbu ketma-ketlik ko‘plab jumlalar chegaralarini kesib o‘tganligi sababli, ehtimollikni
hisoblashda gap boshi
va oxiri belgilarini
va
kiritish kerak.
Tilning o‘rtacha vaznli tarmoqlanish omili, chalkashlik haqida o‘ylashning yana bir usuli
hisoblanadi. Tilning tarmoqlanish omili - har qanday so‘zdan keyin kelishi mumkin bo‘lgan
keyingi so‘zlar soni hisoblanadi. O‘zbek tilidagi raqamlarni (nol, bir, ikki, ..., to‘qqiz) tanib
olish vazifasi ko‘rib chiqilsa, 10 ta raqamning har biri
P=1/10
ehtimollik bilan uchraydi. Bu
kichik-tilning chalkashligi 10 ga teng.
10
10
1
)
10
1
(
)
...
(
)
(
1
1
1
2
1
N
N
N
N
w
w
w
P
W
perplexity
(5)
Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib chiqilgan. Bunda
chalkashlik (Perplexity, PPL) usuli o‘rganilgan.