• TF (i, j) = n (i, j) / Σn (i, j) Bu yerda,  n (i, j)
  • IDF = 1 + log (N/dN) Bu yerda,  N
  • IDFni silliqlash
  • qanday hisoblanadi? Hujjatdagi soʻz uchun TF-IDF qiymat ikki xil  koʻrsatkichni koʻpaytirish orqali hisoblanadi: TF-IDF=TF*IDF




    Download 379,37 Kb.
    Pdf ko'rish
    bet11/16
    Sana11.12.2023
    Hajmi379,37 Kb.
    #116133
    1   ...   8   9   10   11   12   13   14   15   16
    Bog'liq
    b.elov n.xudayberganov z.xusainova til va madaniyat

    45
    qanday hisoblanadi? Hujjatdagi soʻz uchun TF-IDF qiymat ikki xil 
    koʻrsatkichni koʻpaytirish orqali hisoblanadi:
    TF-IDF=TF*IDF. Hujjatdagi soʻzning chastotasi (TF, term 
    frequency)ni hisoblashning bir necha yoʻli mavjud. Eng oddiyi 
    hujjatda soʻz paydo boʻlgan holatlarini aniqlash usuli. Shuningdek, 
    chastotani hisoblashning boshqa usullari mavjud. Masalan, soʻz 
    namunalarining dastlabki sonini hujjat uzunligiga yoki hujjatdagi 
    eng koʻp uchraydigan soʻzning chastotasiga boʻlish orqali hisoblash 
    mumkin. TF chastotani hisoblash formulasi [Zhu Z., Liang J., Li D., Yu 
    H., Liu G., 2019, 26997.]:
    TF (i, j) = n (i, j) / Σn (i, j)
    Bu yerda,

    n (i, j) – hujjatda n-chi soʻz necha marta ushrashi;

    Σn (i, j) – hujjatdagi soʻzlarning umumiy soni
    Hujjatlar toʻplamidagi soʻzning IDF qiymati hujjatlar 
    toʻplamida soʻzning qanchalik koʻp marotaba yoki kamdan-kam 
    uchrashini koʻrsatadi. Qiymat 0 ga qanchalik yaqin boʻlsa, soʻz 
    shunchalik koʻp uchraydi. Ushbu koʻrsatkichni hujjatlarning umumiy 
    sonini aniqlab, ulardagi soʻzni oʻz ichiga olgan hujjatlar soniga boʻlish 
    va logarifmni hisoblash orqali hisoblash mumkin.
    Shunday qilib, agar soʻz hujjatlarda juda koʻp marotaba 
    ishlatilgan boʻlsa, IDF qiymat 0 ga, aks holda 1 ga yaqinlashadi. 
    Ushbu ikki qiymatni koʻpaytirish orqali hujjatdagi soʻzning TF-
    IDF qiymatini aniqlash mumkin. Qiymat qanchalik katta boʻlsa, 
    ushbu hujjatda bu soʻz shunchalik dolzarb (muhim ahamiyatga ega) 
    boʻladi. Matematik jihatdan aytganda, TF-IDF qiymat quyidagicha 
    hisoblanadi:
    IDF = 1 + log (N/dN)
    Bu yerda,

    N – ma’lumotlar toʻplamidagi hujjatlarning umumiy 
    soni;

    dN – n-oʻrindagi soʻz mavjud hujjatlarning umumiy 
    soni.
    Yuqoridagi formulaga qoʻshilgan 1 qiymat IDFni silliqlash 

    Download 379,37 Kb.
    1   ...   8   9   10   11   12   13   14   15   16




    Download 379,37 Kb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    qanday hisoblanadi? Hujjatdagi soʻz uchun TF-IDF qiymat ikki xil  koʻrsatkichni koʻpaytirish orqali hisoblanadi: TF-IDF=TF*IDF

    Download 379,37 Kb.
    Pdf ko'rish