• “DASTURIY INJINIRING” KAFEDRASI Mavzu: Matindagi so‘zlar chastatasini aniqlovchi algoritmlar
  • Bajardi: Ismatov I. I. Tekshirdi: Jabborov J. S. Samarqand 2024
  • Kirish TF-IDF
  • Sharof rashidov nomidagi samarqand davlat universiteti intellektual tizimlar va dasturlash




    Download 1,02 Mb.
    Pdf ko'rish
    bet1/9
    Sana04.06.2024
    Hajmi1,02 Mb.
    #259904
      1   2   3   4   5   6   7   8   9
    Bog'liq
    Kurs ishi Ismatov I



     
     
     
     
     
     
    O‘ZBEKISTON RESPUBLIKASI 
    OLIY TA’LIM, FAN VA INNOVATSIYALAR VAZIRLIGI 
    SHAROF RASHIDOV NOMIDAGI SAMARQAND DAVLAT 
    UNIVERSITETI 
    INTELLEKTUAL TIZIMLAR VA DASTURLASH 
    TEXNOLOGIYALARI FAKULTETI 
     
    “DASTURIY INJINIRING” KAFEDRASI 
     
     
    Mavzu: Matindagi so‘zlar chastatasini aniqlovchi algoritmlar 
     
    70610701 – “Sun’iy intellekt” mutaxassisligi 
     
    KURS ISHI 
     
     
     
     
     
     
     
    Bajardi: Ismatov I. I. 
    Tekshirdi: Jabborov J. S. 
     
     
     
     
     
    Samarqand 2024 


     
    Matindagi so‘zlar chastatasini aniqlovchi algoritmlar 
    Reja: 
    1. Kirish: 
    2. TF-IDF qiymatni hisoblash bosqichlari 
    3. Foydalanuvchi so‘rovi (kalit so‘zlar) asosida korpusdagi matnlarni TF-
    IDF usuli vositasida tartiblash. 
    4. Korpus matnlari uchun TF-IDF qiymatlarni hisoblash 
    5. Mashinali o‘rganishda TF-IDFdan foydalanish
    6. Xulosa 
    7. Fodalanilgan adabiyotlar 


    Kirish 
    TF-IDF
    (Term Frequency-Inverse Document Frequency) – kalit so‘zning 
    berilgan hujjatlar to‘plamiga mosligini aniqlash usuli bo‘lib, TF-IDF qiymat 
    statistik ko‘rsatkich (baho) hisoblanadi [Stecanella, 2019]. J.Qin va Z.Zhoular 
    tomonidan TF-IDF usulidan foydalanib, xitoy tilidagi so‘zlarni segmentatsiya 
    algoritmi ishlab chiqilgan [Qin, Zhou, Tan, Xiang, He, 2021]. Ular tomonidan 
    taklif qilingan algoritm yordamida ijtimoiy tarmoqdagi yangiliklar klasterlarga 
    ajratilib, yangiliklardagi aktual so‘zlar aniqlangan va amalga oshirilgan 
    eksperimentlar asosida hozirgi kundagi dolzarb mavzularni samarali topish 
    imkoniyati taqdim etilgan. D. Cahyani va I. Patasik tomonidan berilgan matndagi 
    inson tuyg‘ularni tasniflash uchun TF-IDF va Word2Vec raqamli vektorlar 
    modellaridan foydalanilgan [Cahyani, Patasik, 2021; Pietro, 2020].
    Shuningdek, tvit shaklidagi ma’lumotlarini tasniflash ikki bosqichda SVM 
    (support vector machine) va MNB (Multinomial Naïve Bayes) usullaridan 
    foydalanib amalga oshirilgan. Birinchi bosqischda his-tuyg‘ularni o‘z ichiga 
    olgan yoki his-tuyg‘usiz ma’lumotlar aniqlangan. Ikkinchi bosqichda his-
    tuyg‘ularni o‘z ichiga olgan ma’lumotlar hissiyotlarning besh turiga, ya’ni baxtli, 
    g’azablangan, qayg’uli, qo‘rquv va hayratga ajratilgan. Ushbu tadqiqotda TF-IDF 
    bilan SVM, Word2Vec bilan SVM va TF-IDF bilan MNB metodlar qo‘llanilgan 
    va natijalar o‘zaro qiyosiy taqqoslangan. R. Qaiser va R. Ali tomonidan 
    korpusdagi hujjatlarga kalit so‘zlarning mosligini tekshirish muhokama qilingan 
    [Qaiser, Ali, 2018]. Ularning tadqiqotlari
    TF-IDF algoritmini hujjatlar soni bo‘yicha qanday qo‘llash mumkinligiga 
    qaratilgan.
    Birinchidan, TF-IDFni amalga oshirish uchun amal qilish kerak bo‘lgan 
    bosqichlar ketma-ketligi ishlab chiqilgan. Ikkinchidan, TF-IDF algoritmi 
    natijalari tahlil qilingan va TD-IDF algoritmining kuchli va zaif tomonlari 
    keltirilgan. Ijtimoiy tarmoqlar va Internet global miqyosda foydalanuvchilarning 
    o‘zaro yangiliklar, g‘oyalar va ma’lumotlarni bir zumda almashish imkonini 
    berdi. B. Ahmed va G. Ali tomonidan olib borilgan tadqiqotlarda ijtimoiy 
    tarmoqlar va Internetdagi mish-mishlar yoki soxta xabarlarni aniqlash 
    algoritmlari ishlab chiqilgan va joriy etilgan [Ahmed, Ali, Hussain, Baseer, 
    Ahmed, 2021]. Ular tomonidan taqdim etilgan yondashuvga ko‘ra 3 ta xususiyatli 
    ekstraktorlardan foydalangan holda neyron tarmoqlarga asoslanib soxta 
    yangiliklarni aniqlash modeli ishlab chiqilgan: TD-IDF, Glove va BERT. 
    Baholash uchun har bir xususiyat ekstraktori uchun bir nechta ko‘rsatkichlar, 
    ya’ni aniqlik, eslab qolish, AUC ROC va AUC PR qiymatlar hisoblab chiqilgan 
    va transformatsiya usullari chuqur o‘rganish modeliga joriy etilgan. TD-IDF usuli 


    orqali olingan natijalar neyron tarmoqlarga asoslangan BERT usuliga yaqinroq 
    qiymatlarni bergan. 

    Download 1,02 Mb.
      1   2   3   4   5   6   7   8   9




    Download 1,02 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Sharof rashidov nomidagi samarqand davlat universiteti intellektual tizimlar va dasturlash

    Download 1,02 Mb.
    Pdf ko'rish