Mavjud til korpusdagi
D1
,
D2
va
D3
hujjatlariga mos
Q
so‘rovini amalga
oshirish lozim bo‘lsin.
Q:
Qish ham keldi.
D1:
Qor parchalari ham bir-biriga aslo o‘xshamaydi.
D2:
Qor yog‘masa,
qish faslining qizig‘i ham yo‘qday go‘yo.
D3:
O‘lkamizga qish fasli ham kirib keldi.
TF qiymatni hisoblashning bir necha usullari mavjud bo‘lib, ko‘p hollarda
hujjatda so‘zning uchrash soni aniqlanadi. So‘rovga mos hujjatdagi uchrashlar
sonini hujjat uzuligiga nisbati yordamida TF qiymatni hisoblaymiz:
TF (word, document) = “hujjatdagi so‘zning chastotasi soni” / “hujjatdagi
so‘zlar soni” yoki
D1, D2 va D3 hujjatlariga nisbatan “qish”, “ham” va “keldi” soʻzlarining TF
qiymatlarini hisoblaymiz. Ushbu amalni bajarishdan avval D1, D2, D3 hujjatlar
va Q so‘rovida lemmatizatsiya amalini bajarish lozim [x].
TF (“qish”, D1) = 0/7 = 0
TF (“qish”, D2) = 1/8 = 0.125
TF (“qish”, D3) = 1/6 = 0.167
TF (“ham”, D1) = 1/7 = 0.167
TF (“ham”, D2) = 1/8 = 0.125
TF (“ham”, D3) = 1/6 = 0.167
TF (“kelmoq”, D1) = 0/7 = 0
TF (“kelmoq”, D2) = 0/8 = 0
TF (“kelmoq”, D3) = 1/6 = 0.167
ham kelmoq qish TF(D1)
0.166667 0.0 0.0
TF(D2)
0.125 0.0 0.125
TF(D3)
0.166667 0.166667 0.166667
IDF
0.0 0.477121 0.176091
IDF qiymatni hujjatlarning umumiy sonini, berilgan so‘zni o‘z ichiga olgan
hujjatlar soniga bo‘lish va logarifmni aniqlash orqali hisoblash mumkin. Agar
so‘zdan korpusdagi hujjatlarda ko‘p foydalanilgan bo‘lsa IDF qiymat
0
ga, aks
holda
1
ga yaqin bo‘ladi.
IDF(word) = log(hujjatlar soni / so‘zni o‘z ichiga olgan hujjatlar soni) yoki
Keyingi qadamda “qish”, “ham” va “keldi” so‘zlarining IDF qiymatlarini
hisoblaymiz:
IDF(“qish”) = log(3/2) = log(1.5) = 0.176
IDF(“ham”) = log(3/3) = log(1) = 0
IDF(“kelmoq”) = log(3/1) = log(3) = 0.477
TF va IDF qiymatlarni koʻpaytirish orqali soʻzning hujjatga mos TF-IDF
qiymati aniqlanadi. Ushbu qiymat qanchalik katta bo‘lsa, joriy hujjatda so‘z
shunchalik muhim (dolzarb) hisoblanadi. TF-IDF (word, document) = TF (word,
document)
* IDF (word). Keyingi qadamda
“the” va “cat” so‘zlarining TF-IDF qiymatlarini hisoblaymiz:
TF-IDF(“qish”, D1) = 0 * 0.176 = 0
TF-IDF(“qish, D2) = 0.125 * 0.176 = 0.022
TF-IDF(“qish”, D3) = 0.167 * 0.176 = 0.029
TF-IDF(“ham”, D1) = 0.167 * 0 = 0 TF-IDF(“ham, D2) = 0.125 * 0 = 0
TF-IDF(“ham”, D3) = 0.167 * 0 = 0
TF-IDF(“kelmoq”, D1) = 0 * 0.477 = 0
TF-IDF(“kelmoq, D2) = 0 * 0.477 = 0
TF-IDF(“kelmoq”, D3) = 0.167 * 0.477 = 0.079
Ushbu uchta qiymatlar to‘plamini birlashtirib, korpus hujjatlaridagi so‘z
uchun TF-IDF qiymatni (w) olamiz:
Keyingi qadamda, korpusdagi hujjatlarni berilgan Q so‘rovga mos TF-IDF
qiymatlar bo‘yicha tartiblash amalga oshiriladi. Q so‘roviga nisbatan D1, D2 va
D3 hujjatlar bo‘yicha o‘rtacha TF-IDF qiymatlardan foydalanish lozim.
Average TF-IDF of D1 = (0 + 0 + 0) / 3 = 0
Average TF-IDF of D2 = (0 + 0.022 + 0) / 3 = 0.0073 Average TF-IDF of
D3 = (0.079 + 0.029 + 0) / 3 = 0.036
|