80
Nizomaddin XUDAYBERGANOV, Shaxboz HASANOV
o‘xshashligini
hisobga olishni taklif qiladi, bu an’anaviy kosinus
o‘xshashligiga nisbatan qo‘shimcha ma’lumotlar talab qiladi [Connor,
2016].
Masalan, tabiiy tilni qayta ishlash (NLP) sohasida so‘zlarning
xususiyatlari o‘rtasidagi o‘xshashlik juda intuitivdir. Shuning uchun
ulardan qo‘shimcha ma’lumotlar talab qilinishi
aniqlik darajasini
oshirishga yordam beradi. Misol uchun, “misol” va “boshqotirma”
so‘zlari tarkiban turli xil so‘zlar va
shuning uchun VFMning turli
nuqtalarida ko‘rsatiladi. Biroq ular ma’no jihatidan bir-biriga
bog‘liqdir.
Yumshoq kosinusni hisoblash uchun s o‘zgaruvchi tanlanadi
va matritsasi xususiyatlari orasidagi o‘xshashlikni ko‘rsatish uchun
ishlatiladi. N oʻlchamli fazoda a va b
vektorlari orasida yumshoq
kosinus oʻxshashligi quyidagicha hisoblanadi:
7-rasm. Formula
agar xususiyatlar
o‘rtasida o‘xshashlik bo‘lmasa 0ga, aks holda 1ga teng. Berilgan
tenglama an’anaviy kosinus o‘xshashlik
formulasiga ekvivalentdir
[Sidorov, Velasquez, Stamatatos, 2013, 1].
Psevdokodi
function CosineDist(a,b):
X_list <- TOKENIZE(LOWERCASE(a));
Y_list <- TOKENIZE(LOWERCASE(b));
X_set <- REMOVE_STOPWORDS(X_list);
Y_set <- REMOVE_STOPWORDS(Y_list) ;
l1 = CREATE_VECTOR(X_set);
l2 = CREATE_VECTOR(Y_set);
return COSINE(l1,l2)
end