|
Yashirin semantik indeksatsiya
|
bet | 3/6 | Sana | 20.12.2023 | Hajmi | 309,92 Kb. | | #124438 |
"so'zlar qoplari" sifatida ifodalanadi , bu erda hujjatdagi so'zlarning tartibi muhim emas, faqat har bir so'z hujjatda necha marta paydo bo'ladi.
Tushunchalar odatda hujjatlarda birga paydo bo'ladigan so'zlarning namunalari sifatida ifodalanadi . Masalan, "yaguar", "avtomobil" va "tezlik" odatda sport avtomobillari haqidagi hujjatlarda paydo bo'lishi mumkin, "yaguar", "hayvon", "ov qilish" esa yaguar hayvon tushunchasiga ishora qilishi mumkin.
bir xil kontekstda ishlatiladigan so'zlar o'xshash ma'noga ega bo'lish tamoyiliga asoslanadi .
LSI atamalarni tushunchalar bilan taqqoslash uchun Singular Value Decomposition dan foydalanadi.
LSI ning afzalliklari
LSI mantiqiy kalit so'rovlarning ikkita eng muammoli cheklovlarini yengib chiqadi:
o'xshash ma'noga ega bo'lgan bir nechta so'zlar (sinonimiya)
bir nechta ma'noli so'zlar (ko'p ma'noli).
LSI samarali bo'lishi uchun matn jumla shaklida bo'lishi shart emas . U ro'yxatlar, erkin shakldagi eslatmalar, elektron pochta, veb-kontent va boshqalar bilan ishlashi mumkin.
LSI shuningdek, hujjatlarni avtomatlashtirilgan turkumlashtirish va klasterlashni amalga oshirish uchun ishlatiladi. Aslida, bir nechta tajribalar LSI va odamlarning matnni qayta ishlash va tasniflash usullari o'rtasida
bir qator bog'liqliklar mavjudligini ko'rsatdi .
r -darajali A mx n matritsa uchun faktorizatsiya mavjud
(Singular Value Decomposition = SVD) quyidagicha: A = t/ZV r
orthonormal
orthonormal
;/ diagonal yozuvlari yagona qiymatlar sifatida tanilgan ning M.
Singular values.
U ning m ustuni va V ning n ta ustuni deyiladi
A ning chap singulyar vektorlari va o‘ng singulyar vektorlari .
SVD misoli
A = O bo'lsin 1
Shunday qilib, m=3, n=2. Uning SVD
1/V2 1/V2
1/V2 -м41
0 2/Ve 1/l/z 1/V2 —i/Ve i /Uz 1/V2 1/l/b -1/d/Z
Odatda, yagona qiymatlar kamayish tartibida joylashtirilgan.
Matritsaning darajasi
Matritsaning ustun darajasi _ A - A ning chiziqli mustaqil ustun vektorlarining maksimal soni.
A matritsaning satr darajasi - A ning chiziqli mustaqil qator vektorlarining maksimal soni .
Ustun darajasi va qator darajasi har doim teng
Matritsaning darajasi
■ SVD o'lchamlari va siyrakligi tasviri
Yagona qiymat dekompozitsiyasi juda umumiy bo'lib, uni har qanday m x n matritsaga qo'llash mumkin , o'z qiymat dekompozitsiyasi esa faqat kvadrat matritsalarning ma'lum sinflariga qo'llanilishi mumkin . Shunga qaramay, ikkala parchalanish o'zaro bog'liq.
, M ning SVD ni hisobga olsak , quyidagi ikkita munosabat mavjud:
AGM = VY'U* UYV* = V(S*X!)V* L/L/* = UYV* VY?U* =
Bu erda M* M ning konjugat transpozisiyasidir.
M ning nolga teng bo'lmagan yagona qiymatlari (2 diagonal yozuvlarida topilgan) M*M va MM* ning nolga teng bo'lmagan xos qiymatlarining kvadrat ildizlaridir.
A = USV7
|
| |