|
Rasm. Qidiruv tizimlarining ishlash sxemasi
|
bet | 2/3 | Sana | 18.12.2023 | Hajmi | 57,43 Kb. | | #122174 |
Bog'liq qidiruv-tizimlari-algoritmlarining-tahlili Rasm. Qidiruv tizimlarining ishlash sxemasi.
Mashhur qidiruv tizimi algoritmlari
PageRank algoritmi: Ushbu algoritm Google tomonidan ishlab chiqilgan va sahifaga kiruvchi havolalar soniga qarab qidiruv natijalarini ustuvorlashtirish uchun mo’ljallangan. U sahifani boshqa sahifalarga nisbatan ahamiyatini aniqlash uchun sahifaga bo’lgan havolalar miqdori va sifatini o’lchaydi. PageRank ma’lum bir qidiruv so’rovida eng mos va maqbul saytlarni aniqlashga yordam beradi.
Umumiy holda, har qanday sahifa “𝓊” uchun PageRank qiymatini quyidagicha ifodalash mumkin:
ya’ni “𝓊” sahifasi uchun PageRank qiymati: Bu to’plamidagi har bir “𝓋” sahifaning PageRank qiymatini shu sahifadagi havolalarning L(𝓋) soniga bo’linadi va har bir bo’linma qo’shib chiqiladi.
TF-IDF algoritmi : Bu algoritm Term Frequency-Inverse Document Frequency so’zlarining qisqartmasidan ushbu nomga ega bo’lgan va berilgan so’rov bo’yicha hujjatning dolzarbligini aniqlash uchun ishlatiladi. U hujjatdagi atamaning chastotasini o’lchaydi va keyin ma’lum hujjatlar to’plamidagi atamaning ahamiyatini tortish uchun teskari hujjat chastotasidan foydalanadi. Ushbu algoritm ko’pincha veb-saytning ma’lum bir so’rov uchun mosligini o’lchash uchun ishlatiladi.
TF-IDF statistik o’lchovi ortidagi oddiy formulani ko’rib chiqaylik. Dastlab ba’zi belgilarni aniqlaymiz:
N - bizning ma’lumotlar to’plamimizdagi hujjatlar soni d - bizning ma’lumotlar to’plamimizdan berilgan hujjat D - barcha hujjatlar to’plami
w - hujjatdagi berilgan so’z
Birinchi qadamda hujjat chastotasi tf(w,d) hisoblanadi.
𝑡𝑓(𝑤, 𝑑) = 𝑙𝑜𝑔(1 + 𝑓(𝑤, 𝑑))
|
2)
|
Bu yerda 𝒇(𝒘, 𝒅) - d hujjatidagi w so'zining chastotasi.
Ikkinchi qadamda teskari hujjat chastotasi hisoblanadi.
𝑁
𝑖𝑑𝑓(𝑤, 𝐷) = 𝑙𝑜𝑔 ( ( ))
𝑓 𝑤, 𝐷
|
3)
|
Ma'lumotlar to'plamida N ta hujjat va f(w, D) butun ma'lumotlar to'plamidagi w so'zining chastotasi bilan bu raqam butun ma'lumotlar to'plamida so'zning ko'proq ko'rinishi bilan kamroq bo'ladi.
Yakuniy qadam TF-IDF ballini quyidagi formula bo'yicha hisoblanadi:
𝑡𝑓𝑖𝑑𝑓(𝑤, 𝑑, 𝐷) = 𝑡𝑓(𝑤, 𝑑) ∗ 𝑖𝑑𝑓(𝑤, 𝐷)
|
4)
|
|
| |