Qarshi davlat universiteti international scientific and practical conference on algorithms and current problems of programming

Download 15,84 Mb. Pdf ko'rish
bet	50/551
Sana	15.05.2024
Hajmi	15,84 Mb.
	#234763

1 ... 46 47 48 49 50 51 52 53 ... 551

Bog'liq
Asosiy oxirgi 17.05.2023 18.20

NUTQNI TANISHDA TIL MODELINI BAHOLASHNING PERPLEXITY USULI Djurayev Oybek Nuruddinovich
Annotatsiya. Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib chiqilgan. Bunda chalkashlik (Perplexity, PPL) usuli o‘rganilgan. Abstract.
Аннотация. В данной статье рассматриваются методы оценки языковой модели при распознавании речи. Изучен метод Perplexity (PPL). Kalit so‘zlar.
Ключевые слова.

Список использованной литературы
1. Kaxorov А.А, Yodgorova Д.М., Xo‘jakulov Т.А., Bozorova Z.S. “Tabiiy tilni qayta ishlash
model va algoritmlari”- Мuhammad al-Xorazmiy avlodlari, №3(21), sentyabr 2022.
2. Б.Б. Мўминов, К.Б. Мухамадиева “Сунъий нейрон тармоқлари таснифи”.
Монография.-Т.: “Aloqachi”, 2020. -228 б.
Djurayev O.N. Nutqni tanishda til modelini baholashning perplexity usuli
NUTQNI TANISHDA TIL MODELINI BAHOLASHNING PERPLEXITY USULI
Djurayev Oybek Nuruddinovich
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti, katta
o‘qituvchi
ORCID raqami: 0000-0002-0478-7889; od@tuit.uz
Annotatsiya.
Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib
chiqilgan. Bunda chalkashlik (Perplexity, PPL) usuli o‘rganilgan.
Abstract.
In this article the evaluation methods of language model in speech recognition
are considered. Perplexity (PPL) method was studied.
Аннотация.
В данной статье рассматриваются методы оценки языковой модели
при распознавании речи. Изучен метод Perplexity (PPL).
Kalit so‘zlar.

Nutqni tanish, til modeli,

tabiiy tilni qayta ishlash, baholash, chalkashlik,
ehtimollik, test to‘plami, o‘qitish to‘plami.
Key words.

Speech recognition, language model, natural language processing,
evaluation, perplexity, probability, test set, training set.
Ключевые слова.
Распознавание речи, языковая модель, обработка естественного
языка, оценка, недоумение, вероятность, тестовый набор, обучающий набор.
Til modeli samaradorligini baholashning eng yaxshi usuli uni dastur tarkibiga joriy etish
va dastur qanchalik yaxshilanganligini o‘lchash hisoblanadi. Bunday baholash tashqi
baholash deb ataladi. Tashqi baholash - bu muayyan yaxshilanish haqiqatan ham vazifani
bajarishga yordam beradimi yoki yo‘qligini bilishning yagona yo‘li sanaladi. Shunday qilib,
nutqni tanish tizimini har bir til modeli bilan ishga tushirish va qaysi biri aniqroq natijani
berishini ko‘rish orqali ikkita til modelining ishlashini solishtirish mumkin.
Afsuski, katta tabiiy tilni qayta ishlash (NLP) tizimlarini ishlatish ko‘pincha juda
qimmatga tushadi. Buning o‘rniga, til modelidagi potentsial yaxshilanishlarni oson

65
baholash uchun o‘lchash usuliga ega bo‘lish yaxshi hisoblanadi. Ichki baholash o‘lchash
usuli har qanday ilovadan mustaqil ravishda til modeli sifatini o‘lchaydigan ko‘rsatkichdir.
Til modelini ichki baholash uchun test to‘plami kerak. Ko‘pgina statistik modellarda
bo‘lgani kabi, n-gram modelining ehtimolligi ham o‘qitish korpusidan kelib chiqadi. Keyin
n-gramm modelining sifatini test to‘plami yoki test korpusi bilan o‘lchash mumkin.
Shunday qilib, agar bitta matn korpusi berilgan va ikki xil n-gram til modelini
solishtirish lozim bo‘lsa, matn korpusi o‘qitish va test to‘plamlariga ajratiladi. Ikkala til
modelining parametrlari o‘qitish to‘plamida o‘qitiladi va o‘qitilgan modellar qanchalik
yaxshi ekanligi test to‘plamida solishtiriladi. Qaysi model test to‘plamida yuqoriroq
ehtimollikni ko‘rsatsa yaxshiroq model hisoblanadi.
Baholash ko‘rsatkichi test to‘plamining ehtimolligiga asoslanganligi sababli, test to‘plami
jumlalarini o‘qitish to‘plamiga kiritmaslik kerak. Ma’lum test to‘plami jumlasining
ehtimolligini hisoblashga harakat qilinadi. Agar test to‘plamidagi jumla o‘qitish
to‘plamining bir qismi bo‘lsa, sun’iy ravishda yuqori ehtimollik aniqlanadi. Bu holatni test
to‘plamida o‘qitish deb ataladi. Test to‘plami bo‘yicha o‘qitish ehtimolliklarni yuqori
bo‘lishiga olib keladigan xatolikni keltirib chiqaradi.
Ba’zan ma’lum bir test to‘plamidan shunchalik ko‘p foydalaniladiki, uning
xususiyatlariga moslashib qolinadi. Shunda haqiqatan ham yangi test to‘plamiga zarurat
tug‘iladi. Bunday hollarda dastlabki test to‘plamini ishlab chiqish test to‘plami yoki
devset
deb atash mumkin. Ma’lumotlar o‘qitish, ishlab chiqish va test to‘plamlariga ajratiladi. Test
to‘plami imkon qadar katta bo‘lishi lozim, chunki kichik test to‘plamining samarasi kichik
bo‘ladi. Shu kabi imkon qadar o‘qitish to‘plami ham katta bo‘lishi lozim. Hech bo‘lmaganda,
ikkita til modellari o‘rtasidagi statistik muhim farqlarni o‘lchash uchun yetarli samarani
beradigan test to‘plamini tanlash kerak. Amalda ko‘pincha ma’lumotlarning 80% o‘qitish,
10% ishlab chiqish va 10% test to‘plamlariga ajratiladi. O‘qitish va test to‘plamlariga
ajratmoqchi bo‘lgan katta korpusni hisobga olinsa, test to‘plami korpus ichidagi uzluksiz
matn ketma-ketligidan olinishi mumkin.
Amalda til modellarini baholash uchun o‘lchov sifatida ehtimollikdan foydalanilmaydi,
chalkashlik (perplexity, PPL) deb ataladigan o‘lchov mavjud. Test to‘plamidagi til
modelining chalkashligi so‘zlar soni bilan normallashtirilgan test to‘plamining teskari
ehtimolligiga teng. Test to‘plami uchun
W = w
1
w
2
...w
N
,
:
N
N
N
N
w
w
w
P
w
w
w
P
W
perplexity
...
(
1
)
...
(
)
(
2
1
1
2
1



(1)
W
ning ehtimolligini oshirish uchun zanjir qoidasidan foydalanish mumkin:
N
N
i
i
i
w
w
w
P
W
perplexity




1
1
1
...
|
(
1
)
(
(2)
W
test to‘plamining chalkashligi qaysi til modelidan foydalanishga bog‘liq.
W
ning
unigram til modeli bilan chalkashligi, unigram ehtimolliklarining o‘rtacha geometrigiga
teng:
N
N
i
i
w
P
W
perplexity



1
)
(
1
)
(
(3)
Bigram til modeli bilan hisoblangan
W
ning chalkashligi hali ham o‘rtacha geometrik
bo‘lib qolmoqda, ammo bigram ehtimolliklarining o‘rtacha geometrigiga teng:
N
N
i
i
i
w
w
P
W
perplexity




1
1
)
|
(
1
)
(
(4)
E’tibor berilsa, 2-formulada so‘z ketma-ketligining shartli ehtimolligi qanchalik yuqori
bo‘lsa, chalkashlik shunchalik past bo‘ladi. Shunday qilib, chalkashlikni minimallashtirish
til modeliga muvofiq test to‘plamining ehtimolligini maksimal darajada oshirishga tengdir.

66
Ushbu ketma-ketlik ko‘plab jumlalar chegaralarini kesib o‘tganligi sababli, ehtimollikni
hisoblashda gap boshi va oxiri belgilarini

va

kiritish kerak.
Tilning o‘rtacha vaznli tarmoqlanish omili, chalkashlik haqida o‘ylashning yana bir usuli
hisoblanadi. Tilning tarmoqlanish omili - har qanday so‘zdan keyin kelishi mumkin bo‘lgan
keyingi so‘zlar soni hisoblanadi. O‘zbek tilidagi raqamlarni (nol, bir, ikki, ..., to‘qqiz) tanib
olish vazifasi ko‘rib chiqilsa, 10 ta raqamning har biri
P=1/10
ehtimollik bilan uchraydi. Bu
kichik-tilning chalkashligi 10 ga teng.
10
10
1
)
10
1
(
)
...
(
)
(
1
1
1
2
1







N
N
N
N
w
w
w
P
W
perplexity
(5)
Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib chiqilgan. Bunda
chalkashlik (Perplexity, PPL) usuli o‘rganilgan.

Download 15,84 Mb.

1 ... 46 47 48 49 50 51 52 53 ... 551

Download 15,84 Mb.

Pdf ko'rish