Sharof rashidov nomidagi samarqand davlat universiteti intellektual tizimlar va dasturlash




Download 1,02 Mb.
Pdf ko'rish
bet4/9
Sana04.06.2024
Hajmi1,02 Mb.
#259904
1   2   3   4   5   6   7   8   9
Bog'liq
Kurs ishi Ismatov I

 
Mavjud til korpusdagi 
D1

D2
va 
D3
hujjatlariga mos 
Q
so‘rovini amalga 
oshirish lozim bo‘lsin.
Q:
Qish ham keldi.
D1:
Qor parchalari ham bir-biriga aslo o‘xshamaydi. 
D2:
Qor yog‘masa, 
qish faslining qizig‘i ham yo‘qday go‘yo.
D3:
O‘lkamizga qish fasli ham kirib keldi.
TF qiymatni hisoblashning bir necha usullari mavjud bo‘lib, ko‘p hollarda 
hujjatda so‘zning uchrash soni aniqlanadi. So‘rovga mos hujjatdagi uchrashlar 
sonini hujjat uzuligiga nisbati yordamida TF qiymatni hisoblaymiz:
TF (word, document) = “hujjatdagi so‘zning chastotasi soni” / “hujjatdagi 
so‘zlar soni” yoki
D1, D2 va D3 hujjatlariga nisbatan “qish”, “ham” va “keldi” soʻzlarining TF 
qiymatlarini hisoblaymiz. Ushbu amalni bajarishdan avval D1, D2, D3 hujjatlar 
va Q so‘rovida lemmatizatsiya amalini bajarish lozim [x].
TF (“qish”, D1) = 0/7 = 0
TF (“qish”, D2) = 1/8 = 0.125
TF (“qish”, D3) = 1/6 = 0.167
TF (“ham”, D1) = 1/7 = 0.167
TF (“ham”, D2) = 1/8 = 0.125
TF (“ham”, D3) = 1/6 = 0.167
TF (“kelmoq”, D1) = 0/7 = 0
TF (“kelmoq”, D2) = 0/8 = 0
TF (“kelmoq”, D3) = 1/6 = 0.167
ham kelmoq qish TF(D1)
0.166667 0.0 0.0
TF(D2)
0.125 0.0 0.125
TF(D3) 
0.166667 0.166667 0.166667
IDF
0.0 0.477121 0.176091
IDF qiymatni hujjatlarning umumiy sonini, berilgan so‘zni o‘z ichiga olgan 
hujjatlar soniga bo‘lish va logarifmni aniqlash orqali hisoblash mumkin. Agar 


so‘zdan korpusdagi hujjatlarda ko‘p foydalanilgan bo‘lsa IDF qiymat 
0
ga, aks 
holda 
1
ga yaqin bo‘ladi.
IDF(word) = log(hujjatlar soni / so‘zni o‘z ichiga olgan hujjatlar soni) yoki
Keyingi qadamda “qish”, “ham” va “keldi” so‘zlarining IDF qiymatlarini 
hisoblaymiz:
IDF(“qish”) = log(3/2) = log(1.5) = 0.176
IDF(“ham”) = log(3/3) = log(1) = 0
IDF(“kelmoq”) = log(3/1) = log(3) = 0.477
TF va IDF qiymatlarni koʻpaytirish orqali soʻzning hujjatga mos TF-IDF 
qiymati aniqlanadi. Ushbu qiymat qanchalik katta bo‘lsa, joriy hujjatda so‘z 
shunchalik muhim (dolzarb) hisoblanadi. TF-IDF (word, document) = TF (word, 
document)
* IDF (word). Keyingi qadamda
“the” va “cat” so‘zlarining TF-IDF qiymatlarini hisoblaymiz:
TF-IDF(“qish”, D1) = 0 * 0.176 = 0
TF-IDF(“qish, D2) = 0.125 * 0.176 = 0.022
TF-IDF(“qish”, D3) = 0.167 * 0.176 = 0.029
TF-IDF(“ham”, D1) = 0.167 * 0 = 0 TF-IDF(“ham, D2) = 0.125 * 0 = 0
TF-IDF(“ham”, D3) = 0.167 * 0 = 0
TF-IDF(“kelmoq”, D1) = 0 * 0.477 = 0
TF-IDF(“kelmoq, D2) = 0 * 0.477 = 0
TF-IDF(“kelmoq”, D3) = 0.167 * 0.477 = 0.079
Ushbu uchta qiymatlar to‘plamini birlashtirib, korpus hujjatlaridagi so‘z 
uchun TF-IDF qiymatni (w) olamiz:
Keyingi qadamda, korpusdagi hujjatlarni berilgan Q so‘rovga mos TF-IDF 
qiymatlar bo‘yicha tartiblash amalga oshiriladi. Q so‘roviga nisbatan D1, D2 va 
D3 hujjatlar bo‘yicha o‘rtacha TF-IDF qiymatlardan foydalanish lozim.
Average TF-IDF of D1 = (0 + 0 + 0) / 3 = 0


Average TF-IDF of D2 = (0 + 0.022 + 0) / 3 = 0.0073 Average TF-IDF of 
D3 = (0.079 + 0.029 + 0) / 3 = 0.036

Download 1,02 Mb.
1   2   3   4   5   6   7   8   9




Download 1,02 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Sharof rashidov nomidagi samarqand davlat universiteti intellektual tizimlar va dasturlash

Download 1,02 Mb.
Pdf ko'rish