• TF-IDF algoritmi
  • Rasm. Qidiruv tizimlarining ishlash sxemasi




    Download 57,43 Kb.
    bet2/3
    Sana18.12.2023
    Hajmi57,43 Kb.
    #122174
    1   2   3
    Bog'liq
    qidiruv-tizimlari-algoritmlarining-tahlili

    Rasm. Qidiruv tizimlarining ishlash sxemasi.


    Mashhur qidiruv tizimi algoritmlari

    1. PageRank algoritmi: Ushbu algoritm Google tomonidan ishlab chiqilgan va sahifaga kiruvchi havolalar soniga qarab qidiruv natijalarini ustuvorlashtirish uchun mo’ljallangan. U sahifani boshqa sahifalarga nisbatan ahamiyatini aniqlash uchun sahifaga bo’lgan havolalar miqdori va sifatini o’lchaydi. PageRank ma’lum bir qidiruv so’rovida eng mos va maqbul saytlarni aniqlashga yordam beradi.

    Umumiy holda, har qanday sahifa “𝓊” uchun PageRank qiymatini quyidagicha ifodalash mumkin:





    1)

    ya’ni “𝓊” sahifasi uchun PageRank qiymati: Bu to’plamidagi har bir “𝓋” sahifaning PageRank qiymatini shu sahifadagi havolalarning L(𝓋) soniga bo’linadi va har bir bo’linma qo’shib chiqiladi.

    1. TF-IDF algoritmi : Bu algoritm Term Frequency-Inverse Document Frequency so’zlarining qisqartmasidan ushbu nomga ega bo’lgan va berilgan so’rov bo’yicha hujjatning dolzarbligini aniqlash uchun ishlatiladi. U hujjatdagi atamaning chastotasini o’lchaydi va keyin ma’lum hujjatlar to’plamidagi atamaning ahamiyatini tortish uchun teskari hujjat chastotasidan foydalanadi. Ushbu algoritm ko’pincha veb-saytning ma’lum bir so’rov uchun mosligini o’lchash uchun ishlatiladi.

    TF-IDF statistik o’lchovi ortidagi oddiy formulani ko’rib chiqaylik. Dastlab ba’zi belgilarni aniqlaymiz:
    N - bizning ma’lumotlar to’plamimizdagi hujjatlar soni d - bizning ma’lumotlar to’plamimizdan berilgan hujjat D - barcha hujjatlar to’plami
    w - hujjatdagi berilgan so’z
    Birinchi qadamda hujjat chastotasi tf(w,d) hisoblanadi.


    𝑡𝑓(𝑤, 𝑑) = 𝑙𝑜𝑔(1 + 𝑓(𝑤, 𝑑))

    2)

    Bu yerda 𝒇(𝒘, 𝒅) - d hujjatidagi w so'zining chastotasi.
    Ikkinchi qadamda teskari hujjat chastotasi hisoblanadi.

    𝑁
    𝑖𝑑𝑓(𝑤, 𝐷) = 𝑙𝑜𝑔 ( ( ))

    𝑓 𝑤, 𝐷



    3)

    Ma'lumotlar to'plamida N ta hujjat va f(w, D) butun ma'lumotlar to'plamidagi w so'zining chastotasi bilan bu raqam butun ma'lumotlar to'plamida so'zning ko'proq ko'rinishi bilan kamroq bo'ladi.
    Yakuniy qadam TF-IDF ballini quyidagi formula bo'yicha hisoblanadi:



    𝑡𝑓𝑖𝑑𝑓(𝑤, 𝑑, 𝐷) = 𝑡𝑓(𝑤, 𝑑) ∗ 𝑖𝑑𝑓(𝑤, 𝐷)



    4)


    1. Download 57,43 Kb.
    1   2   3




    Download 57,43 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Rasm. Qidiruv tizimlarining ishlash sxemasi

    Download 57,43 Kb.