so‘zdan korpusdagi hujjatlarda ko‘p foydalanilgan bo‘lsa
IDF qiymat
0
ga, aks
holda
1
ga yaqin bo‘ladi.
IDF(word) = log(hujjatlar soni / so‘zni o‘z ichiga olgan hujjatlar soni) yoki
Keyingi qadamda “qish”, “ham” va “keldi” so‘zlarining
IDF qiymatlarini
hisoblaymiz:
IDF(“qish”) = log(3/2) = log(1.5) = 0.176
IDF(“ham”) = log(3/3) = log(1) = 0
IDF(“kelmoq”) = log(3/1) = log(3) = 0.477
TF va IDF qiymatlarni koʻpaytirish orqali soʻzning
hujjatga mos TF-IDF
qiymati aniqlanadi. Ushbu qiymat qanchalik katta bo‘lsa, joriy hujjatda so‘z
shunchalik muhim (dolzarb) hisoblanadi. TF-IDF (word, document) = TF (word,
document)
* IDF (word). Keyingi qadamda
“the” va “cat” so‘zlarining TF-IDF qiymatlarini hisoblaymiz:
TF-IDF(“qish”, D1) = 0 * 0.176 = 0
TF-IDF(“qish, D2) = 0.125 * 0.176 = 0.022
TF-IDF(“qish”, D3) = 0.167 * 0.176 = 0.029
TF-IDF(“ham”, D1) = 0.167 * 0 = 0 TF-IDF(“ham, D2) = 0.125 * 0 = 0
TF-IDF(“ham”, D3) = 0.167 * 0 = 0
TF-IDF(“kelmoq”, D1) = 0 * 0.477 = 0
TF-IDF(“kelmoq, D2) = 0 * 0.477 = 0
TF-IDF(“kelmoq”, D3) = 0.167 * 0.477 = 0.079
Ushbu uchta qiymatlar to‘plamini
birlashtirib, korpus hujjatlaridagi so‘z
uchun TF-IDF qiymatni (w) olamiz:
Keyingi qadamda, korpusdagi hujjatlarni berilgan Q so‘rovga mos TF-IDF
qiymatlar bo‘yicha tartiblash amalga oshiriladi. Q so‘roviga nisbatan D1, D2 va
D3 hujjatlar bo‘yicha o‘rtacha TF-IDF qiymatlardan foydalanish lozim.
Average TF-IDF of D1 = (0 + 0 + 0) / 3 = 0
Average TF-IDF of D2 = (0 + 0.022 + 0) / 3 = 0.0073 Average TF-IDF of
D3 = (0.079 + 0.029 + 0) / 3 = 0.036