• NUTQNI TANISHDA TIL MODELINI BAHOLASHNING PERPLEXITY USULI Djurayev Oybek Nuruddinovich
  • Annotatsiya. Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib chiqilgan. Bunda chalkashlik (Perplexity, PPL) usuli o‘rganilgan. Abstract.
  • Аннотация. В данной статье рассматриваются методы оценки языковой модели при распознавании речи. Изучен метод Perplexity (PPL). Kalit so‘zlar.
  • Ключевые слова.
  • Qarshi davlat universiteti international scientific and practical conference on algorithms and current problems of programming




    Download 15,84 Mb.
    Pdf ko'rish
    bet50/551
    Sana15.05.2024
    Hajmi15,84 Mb.
    #234763
    1   ...   46   47   48   49   50   51   52   53   ...   551
    Bog'liq
    Asosiy oxirgi 17.05.2023 18.20

    Список использованной литературы 
    1. Kaxorov А.А, Yodgorova Д.М., Xo‘jakulov Т.А., Bozorova Z.S. “Tabiiy tilni qayta ishlash 
    model va algoritmlari”- Мuhammad al-Xorazmiy avlodlari, №3(21), sentyabr 2022. 
    2. Б.Б. Мўминов, К.Б. Мухамадиева “Сунъий нейрон тармоқлари таснифи”. 
    Монография.-Т.: “Aloqachi”, 2020. -228 б. 
    Djurayev O.N. Nutqni tanishda til modelini baholashning perplexity usuli 
    NUTQNI TANISHDA TIL MODELINI BAHOLASHNING PERPLEXITY USULI 
    Djurayev Oybek Nuruddinovich 
    Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti, katta 
    o‘qituvchi 
    ORCID raqami: 0000-0002-0478-7889; od@tuit.uz 
    Annotatsiya.
    Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib 
    chiqilgan. Bunda chalkashlik (Perplexity, PPL) usuli o‘rganilgan. 
    Abstract.
    In this article the evaluation methods of language model in speech recognition 
    are considered. Perplexity (PPL) method was studied. 
    Аннотация.
    В данной статье рассматриваются методы оценки языковой модели 
    при распознавании речи. Изучен метод Perplexity (PPL). 
    Kalit so‘zlar.
     
    Nutqni tanish, til modeli,
     
    tabiiy tilni qayta ishlash, baholash, chalkashlik, 
    ehtimollik, test to‘plami, o‘qitish to‘plami. 
    Key words.
     
    Speech recognition, language model, natural language processing
    evaluation, perplexity, probability, test set, training set. 
    Ключевые слова.
    Распознавание речи, языковая модель, обработка естественного 
    языка, оценка, недоумение, вероятность, тестовый набор, обучающий набор. 
    Til modeli samaradorligini baholashning eng yaxshi usuli uni dastur tarkibiga joriy etish 
    va dastur qanchalik yaxshilanganligini o‘lchash hisoblanadi. Bunday baholash tashqi 
    baholash deb ataladi. Tashqi baholash - bu muayyan yaxshilanish haqiqatan ham vazifani 
    bajarishga yordam beradimi yoki yo‘qligini bilishning yagona yo‘li sanaladi. Shunday qilib, 
    nutqni tanish tizimini har bir til modeli bilan ishga tushirish va qaysi biri aniqroq natijani 
    berishini ko‘rish orqali ikkita til modelining ishlashini solishtirish mumkin. 
    Afsuski, katta tabiiy tilni qayta ishlash (NLP) tizimlarini ishlatish ko‘pincha juda 
    qimmatga tushadi. Buning o‘rniga, til modelidagi potentsial yaxshilanishlarni oson 


    65 
    baholash uchun o‘lchash usuliga ega bo‘lish yaxshi hisoblanadi. Ichki baholash o‘lchash 
    usuli har qanday ilovadan mustaqil ravishda til modeli sifatini o‘lchaydigan ko‘rsatkichdir. 
    Til modelini ichki baholash uchun test to‘plami kerak. Ko‘pgina statistik modellarda 
    bo‘lgani kabi, n-gram modelining ehtimolligi ham o‘qitish korpusidan kelib chiqadi. Keyin 
    n-gramm modelining sifatini test to‘plami yoki test korpusi bilan o‘lchash mumkin. 
    Shunday qilib, agar bitta matn korpusi berilgan va ikki xil n-gram til modelini 
    solishtirish lozim bo‘lsa, matn korpusi o‘qitish va test to‘plamlariga ajratiladi. Ikkala til 
    modelining parametrlari o‘qitish to‘plamida o‘qitiladi va o‘qitilgan modellar qanchalik 
    yaxshi ekanligi test to‘plamida solishtiriladi. Qaysi model test to‘plamida yuqoriroq 
    ehtimollikni ko‘rsatsa yaxshiroq model hisoblanadi. 
    Baholash ko‘rsatkichi test to‘plamining ehtimolligiga asoslanganligi sababli, test to‘plami 
    jumlalarini o‘qitish to‘plamiga kiritmaslik kerak. Ma’lum test to‘plami jumlasining 
    ehtimolligini hisoblashga harakat qilinadi. Agar test to‘plamidagi jumla o‘qitish 
    to‘plamining bir qismi bo‘lsa, sun’iy ravishda yuqori ehtimollik aniqlanadi. Bu holatni test 
    to‘plamida o‘qitish deb ataladi. Test to‘plami bo‘yicha o‘qitish ehtimolliklarni yuqori 
    bo‘lishiga olib keladigan xatolikni keltirib chiqaradi. 
    Ba’zan ma’lum bir test to‘plamidan shunchalik ko‘p foydalaniladiki, uning 
    xususiyatlariga moslashib qolinadi. Shunda haqiqatan ham yangi test to‘plamiga zarurat 
    tug‘iladi. Bunday hollarda dastlabki test to‘plamini ishlab chiqish test to‘plami yoki 
    devset
    deb atash mumkin. Ma’lumotlar o‘qitish, ishlab chiqish va test to‘plamlariga ajratiladi. Test 
    to‘plami imkon qadar katta bo‘lishi lozim, chunki kichik test to‘plamining samarasi kichik 
    bo‘ladi. Shu kabi imkon qadar o‘qitish to‘plami ham katta bo‘lishi lozim. Hech bo‘lmaganda, 
    ikkita til modellari o‘rtasidagi statistik muhim farqlarni o‘lchash uchun yetarli samarani 
    beradigan test to‘plamini tanlash kerak. Amalda ko‘pincha ma’lumotlarning 80% o‘qitish, 
    10% ishlab chiqish va 10% test to‘plamlariga ajratiladi. O‘qitish va test to‘plamlariga 
    ajratmoqchi bo‘lgan katta korpusni hisobga olinsa, test to‘plami korpus ichidagi uzluksiz 
    matn ketma-ketligidan olinishi mumkin. 
    Amalda til modellarini baholash uchun o‘lchov sifatida ehtimollikdan foydalanilmaydi, 
    chalkashlik (perplexity, PPL) deb ataladigan o‘lchov mavjud. Test to‘plamidagi til 
    modelining chalkashligi so‘zlar soni bilan normallashtirilgan test to‘plamining teskari 
    ehtimolligiga teng. Test to‘plami uchun 
    W = w
    1
    w
    2
     ...w
    N
    ,

    N
    N
    N
    N
    w
    w
    w
    P
    w
    w
    w
    P
    W
    perplexity
    ...
    (
    1
    )
    ...
    (
    )
    (
    2
    1
    1
    2
    1



    (1) 
    W
    ning ehtimolligini oshirish uchun zanjir qoidasidan foydalanish mumkin: 
    N
    N
    i
    i
    i
    w
    w
    w
    P
    W
    perplexity




    1
    1
    1
    ...
    |
    (
    1
    )
    (
    (2) 
    W
    test to‘plamining chalkashligi qaysi til modelidan foydalanishga bog‘liq. 
    W
    ning 
    unigram til modeli bilan chalkashligi, unigram ehtimolliklarining o‘rtacha geometrigiga 
    teng: 
    N
    N
    i
    i
    w
    P
    W
    perplexity



    1
    )
    (
    1
    )
    (
    (3) 
    Bigram til modeli bilan hisoblangan 

    ning chalkashligi hali ham o‘rtacha geometrik 
    bo‘lib qolmoqda, ammo bigram ehtimolliklarining o‘rtacha geometrigiga teng: 
    N
    N
    i
    i
    i
    w
    w
    P
    W
    perplexity




    1
    1
    )
    |
    (
    1
    )
    (
    (4) 
    E’tibor berilsa, 2-formulada so‘z ketma-ketligining shartli ehtimolligi qanchalik yuqori 
    bo‘lsa, chalkashlik shunchalik past bo‘ladi. Shunday qilib, chalkashlikni minimallashtirish 
    til modeliga muvofiq test to‘plamining ehtimolligini maksimal darajada oshirishga tengdir. 


    66 
    Ushbu ketma-ketlik ko‘plab jumlalar chegaralarini kesib o‘tganligi sababli, ehtimollikni 
    hisoblashda gap boshi va oxiri belgilarini 

    va 

    kiritish kerak. 
    Tilning o‘rtacha vaznli tarmoqlanish omili, chalkashlik haqida o‘ylashning yana bir usuli 
    hisoblanadi. Tilning tarmoqlanish omili - har qanday so‘zdan keyin kelishi mumkin bo‘lgan 
    keyingi so‘zlar soni hisoblanadi. O‘zbek tilidagi raqamlarni (nol, bir, ikki, ..., to‘qqiz) tanib 
    olish vazifasi ko‘rib chiqilsa, 10 ta raqamning har biri 
    P=1/10
    ehtimollik bilan uchraydi. Bu 
    kichik-tilning chalkashligi 10 ga teng. 
    10
    10
    1
    )
    10
    1
    (
    )
    ...
    (
    )
    (
    1
    1
    1
    2
    1







    N
    N
    N
    N
    w
    w
    w
    P
    W
    perplexity
    (5) 
    Ushbu maqolada nutqni tanishda til modelini baholash usullari ko‘rib chiqilgan. Bunda 
    chalkashlik (Perplexity, PPL) usuli o‘rganilgan. 

    Download 15,84 Mb.
    1   ...   46   47   48   49   50   51   52   53   ...   551




    Download 15,84 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Qarshi davlat universiteti international scientific and practical conference on algorithms and current problems of programming

    Download 15,84 Mb.
    Pdf ko'rish