• Tf-Idf usuli
  • N-gramm – N-tokenli soʻzlar qatoridir: 2 gramm (odatda  bigramm




    Download 379,37 Kb.
    Pdf ko'rish
    bet10/16
    Sana11.12.2023
    Hajmi379,37 Kb.
    #116133
    1   ...   6   7   8   9   10   11   12   13   ...   16
    Bog'liq
    b.elov n.xudayberganov z.xusainova til va madaniyat

    N-gramm – N-tokenli soʻzlar qatoridir: 2 gramm (odatda 
    bigramm deb ataladi) ikki soʻzdan iborat “juda yaxshi”, “yaxshi 
    emas” yoki “sizning vazifangiz” va 3-gramm (koʻpincha trigramm 
    deb ataladi) – “bu mumkin emas” yoki “shahar markazidagi uylar” 
    kabi soʻzlar trigrammni anglatadi.
    Masalan, oldingi misoldagi birinchi gapga mos bigrammalar 
    (“Bu mahsulot narxi arzon emas”):

    “Bu mahsulot”

    “mahsulot narxi”

    “narxi arzon”

    “arzon emas”
    Yuqoridagi misolda oddiy (bitta) soʻzlarni ishlatish oʻrniga, 
    yuqorida koʻrsatilganidek, bigrammlardan (bag-of-bigrams) 
    foydalanamiz. Yaratilgan model asosida 1-gap va 2-gaplar oʻzaro 
    farqlanadi. Shunday qilib, bigrammlardan foydalanish tokenlarni 
    yanada tushunarli koʻrinishga olib keladi. Xulosa sifatida bigrammlar 
    jamlanmasi soʻzlardan koʻra kuchliroqdir va koʻp hollarda ushbu 
    usuldan foydalanishni tavsiya qilamiz.
    Tf-Idf usuli
    Yuqorida qoʻllaniladigan baholash usulida har bir soʻzning 
    statistikasi aniqlanib, vektordagi soʻz soni boʻyicha ifodalandi. Hosil 
    qilingan vektordan hujjatlar haqida ma’lumot olishda foydalanib 
    boʻlmaydi. Agar biror soʻz hujjatda koʻp marta uchrasa, bu soʻzning 
    hujjat mazmunida muhimligini yoki aktualligini anglatmaydi [Yadav, 
    Borgohain, 2015; Stecanella, 2019.]
    Oʻzbek tilidagi juda koʻp matnlarda “bilan”, “va”, “balki” va 
    shunga oʻxshash soʻzlar juda koʻp ishlatiladi. Shu sababli ushbu 
    soʻzga mos ball qiymatini kamaytirish lozim. Bu yondashuv term 
    frequency-inverse document frequency yoki qisqacha Tf-Idf deb 
    nomlanadi. TF-IDF usuli yordamida soʻzning berilgan hujjatda 
    qanchalik muhimligi aniqlanadi. Hujjatga mos Tf-Idf qiymat 


    Tabiiy tilni qayta ishlashda bag of words algoritmidan foydalanish

    Download 379,37 Kb.
    1   ...   6   7   8   9   10   11   12   13   ...   16




    Download 379,37 Kb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    N-gramm – N-tokenli soʻzlar qatoridir: 2 gramm (odatda  bigramm

    Download 379,37 Kb.
    Pdf ko'rish