-qadam : Terminning og'irliklarini baholang va hujjat matritsasi A va so'rovlar matritsasi tuzing :
Shartlar
yuk kumush yuk mashinasida shikastlangan yetkazib yong'in oltin keldi
2-qadam: SVD yordamida A matritsasini parchalang va U, S va V matritsalarini toping.
A = USV T
-0,4201
|
0,0748
|
-0,0460
|
-0,2995
|
-0,2001
|
0,4078
|
-0,1206
|
0,2749
|
-0,4538
|
-0,1576
|
-0 3046
|
-0.2006
|
-0,1206
|
0,2749
|
-0,4538
|
-0,2626
|
0,3794
|
0,1547
|
-0,4201
|
0,0748
|
-0,0460
|
-0,4201
|
0,0748
|
-0,0460
|
-0,2626
|
0,3794
|
0,1547
|
-0,3151
|
-0,6093
|
-0,4013
|
-0,2995
|
-0 2001 yil
|
0,4078
|
-0,4945 0,6492 -0,5780
-0,6458 -0,7194 -0,2556
-0,5817 0,2469 0,7750
4.0989
S = 0,0000
0,0000
0,0000
2.3616
0,0000
0,0000
0,0000
1.2737
d1 d2 d3
V T =
-0,4945
0,6492
-0,5780
-0,6458 -0,5817
-0,7194 0,2469
-0,2556 0,7750
■ 3-qadam: U va V ning birinchi ustunlarini va S ning birinchi ustunlari va qatorlarini saqlab, 2-darajali yaqinlashuvni amalga oshiring.
-0.4201
-0.2995
-0.1206
-0.1576
-0.1206
-0.2626
-0.4201
-0.4201
-0.2626
-0.3151
-0.2995
0 0748
-0.2001
0.2749
-0.3046
0.2749 0.3794 0.0748 0.0748 0.3794
-0.6093
-0.2001
Sk
к =2
4.0989
0 0000
0.0000
2.3616
-0.4945 0.6492
-0.6458 -0.7194
-0.5817 0.2469
VT « VT =
к
-0.4945
0.6492
-0.6458
-0.7194
-0 5817 0.2469
Bu 0 ta yozuv ko'rsatilmagan kesilgan tasvirdir.
4-qadam: Ushbu qisqartirilgan ikki o'lchovli bo'shliqda yangi hujjat vektor koordinatalarini toping .
T ustunlari alohida hujjat vektorlarining koordinatalarini o'z ichiga oladi:
. d1 =(-0,4945, 0,6492)
- d2=(-0,6458, -0,7194)
■ d3=(-0,5817, 0,2469)
5-qadam: Qisqartirilgan 2 o'lchovli fazoda yangi so'rov vektor koordinatalarini toping.
. q = q T U k S k 1
q = [00000100011
|
|
-0.4201
|
0.0748
|
I
|
|
-0.2995
|
-0.2001
|
|
-0.1206
|
0.2749
|
|
-0.1576
|
-0.3046
|
|
-0.1206
|
0.2749
|
|
-0.2626
|
0.3794
|
|
-0.4201
|
0.0748
|
|
-0.4201
|
0.0748
|
|
-0.2626
|
0.3794
|
|
-0.3151
|
-0.6093
|
|
-0.2995
|
-0.2001
|
1
4.0989
0.0000
0.0000
1
2.3616
-0,2140 -0,1821
6-qadam: Hujjatlarni so'rov hujjatining kosinus o'xshashliklarini kamaytirish tartibida tartiblang .
q ♦ d
(-C.2140) (-0.4945) + (-0.1821) (0.6492)
sim (q. d p = — = -0,0541
U (-0,2140) 2 + (-0 1821) 2 U (-0,4945) 2 + (0 6492) 2
(-0 2140) (-0,6458) + (-0,1821) (-0,7194)
sim(q. <1* = 0-9910
U (-0,2140; 2 + (-0 1821) 2 U (-0 6458) 2 + (-0,7194) 2
(-0 2140) (-0,5817) + (-0,1821) (0,2469)
sim(q, d = - 0,4478
U (-0,2140) 2 + (-0 1821) 2 U(-0,5817) 2 + (0,2469) 2
Hujjatlarni kamayish tartibida tartiblash
d 2 > d 3 > d,
Buni sinab ko'ring OP http://www.bluebit.gr/rnatrix-calculator/calculate.aspx
1 1 0
A=1 0 1
1 0 1
Singular qiymatning parchalanishi:
-0,460 0,888 0,000
-0,628 -0,325 -0,707
-0,628 -0,325 0,707
2,175 0,000 0,000
0,000 1,126 0,000
0,000 0,000 0,000
V T
-0,789 -0,211 -0,577
0,211 0,789 -0,577
0,577 -0,577 -0,577
-1.001 1.000
-1.366 -0.366
-1.366 -0.366
U k = -0,460 0,888 x S k =2,175 0,000 x V T k =-0,789 -0,211 -0,577
-0,628 -0,325 0,000 1,126 0,211 0,789 -0,577
-0,628 -0,325
1.001 1.000 0.001
1,001 -0,001 0,999
1,001 -0,001 0,999
Yashirin semantik tahlil - Xulosa
Hujjat atamasi matritsasining past darajali yaqinlashuvini bajaring (odatda 100-300 daraja)
Umumiy fikr
Hujjatlarni (va atamalarni) past o'lchamli tasvirga xaritalash.
Xaritani shunday tuzingki, past o'lchamli bo'shliq semantik assotsiatsiyalarni (yashirin semantik bo'shliq) aks ettiradi.
Ushbu yashirin semantik makonda ichki mahsulotga asoslangan hujjat o'xshashligini hisoblang
Maqsadlar
Shunga o'xshash atamalar past o'lchamli makonda o'xshash joyni ko'rsatadi
O'lchamlarni kamaytirish orqali shovqinni kamaytirish
■ NLP va IRning ko'plab sohalarida qimmatli vosita ekanligini isbotladi
umumlashtirish
tillararo IR
mavzularni segmentatsiyalash
matn tasnifi
savol javob
Ko'proq
Naqshni aniqlash va qidirishning ko'p sozlamalarida bizda xususiyat-ob'ekt matritsasi mavjud.
Matn uchun atamalar xususiyatlar, hujjatlar esa ob'ektlardir.
Fikrlar va foydalanuvchilar bo'lishi mumkin ...
Ushbu matritsa o'lchovlilikda ortiqcha bo'lishi mumkin.
Past darajali yaqinlashish bilan ishlashi mumkin.
Agar yozuvlar etishmayotgan bo'lsa (masalan, foydalanuvchilarning fikri), o'lcham past bo'lsa, uni tiklash mumkin.
Kuchli umumiy analitik texnika
Klasterlash usullariga yaqin, printsipial analog.
LSA - Muammolar
SVD Algoritm murakkabligi O(p l 2k l 3)
n = atamalar soni
k = semantik makondagi o'lchamlar soni (odatda kichik ~50 dan 350 gacha)
Barqaror hujjatlar to'plami uchun faqat bir marta ishga tushirish kerak Dinamik hujjatlar to'plamlari: SVD-ni qayta ishga tushirish kerak bo'lishi mumkin, lekin yangi hujjatlarni "katlash" ham mumkin.
■ Semantik makon uchun optimal hajmni topish
aniqlik-eslash yaxshilanadi, chunki o'lcham optimal darajaga yetguncha kattalashadi, so'ngra standart vektor modeliga yetguncha asta-sekin kamayadi.
SVD ni katta o'lchamli bir marta ishga tushiring, aytaylik k = 1000
keyin <= k o'lchamlarni sinab ko'rish mumkin
■ ko'p vazifalarda 150-350 yaxshi ishlaydi, hali tadqiqot uchun joy
SVD
To'liq bo'lmagan darajali matritsalarda
m terms
m terms
Lug‘at k ga bo‘lingan mavzular (klasterlar); har bir hujjat faqat bitta mavzuni muhokama qiladi.
m terms
, bu matritsaga yaxshi rank-/< yaqinlashuvi mavjud .
tozalovchi shina
V6
3 qulf 1
Blok 2
Bir nechta noldan farqli yozuvlar
Bir nechta noldan farqli yozuvlar
Blok k
mashina
avtomobil
Oddiy rasm
1-mavzu
2-mavzu
3-mavzu
Ba'zi yovvoyi ekstrapolyatsiya
Korpusning "o'lchovliligi" - unda ifodalangan turli mavzular soni.
Ko'proq matematik yovvoyi ekstrapolyatsiya:
■ agar A past Frobenius xatosining k darajali yaqinlashuviga ega bo'lsa , u holda korpusda k dan ortiq turli mavzular mavjud emas .
Empirik natijalar
TREC 1/2/3 - Dumais bo'yicha tajribalar
Lanczos SVD kodi (netlib-da mavjud) Berri tufayli ushbu ekspluatatsiyalarda foydalanilgan
■ O'n minglab hujjatlarda ~ bir kunlik ish vaqti
■ O'lchovlar - har xil qiymatlar 250-350 haqida xabar berilgan
■ (200 dan kam odam qoniqarsiz deb hisoblangan)
Umuman olganda, eslab qolish yaxshilanadi - aniqlik haqida nima deyish mumkin?
O'rtacha TREC aniqligida yoki undan yuqori aniqlik
TREC mavzularining deyarli 20% bo'yicha eng yaxshi to'purar
To'g'ri vektor bo'shliqlariga qaraganda o'rtacha bir oz yaxshiroq
Hajmining ta'siri:
O'lchamlari
|
Aniqlik
|
250
|
0,367
|
300
|
0,371
|
346
|
0,374
|
Muvaffaqiyatsizlik rejimlari
■ TREC mavzulari ba'zan ma'lum so'rovlar/term iboralarni inkor etadi - mavzularni avtomatik ravishda o'zgartirish
Mantiqiy so'rovlar
Odatdagidek, LSI so'rovlarining erkin matn/vektorli bo'shliq sintaksisi (aytaylik) "Quyidagi 5 ta kompaniya bilan bog'liq bo'lgan har qanday hujjatni toping" degan ma'noni istisno qiladi.
Ko'proq ma'lumot uchun Dumaisga qarang.
Resurslar
http://nlp.stanford.edu/IR-book/html/htmledition/matrix- decompositions-and-latent-semantic-indexinq-1.html
http://www.cs.utk.edu/~berry/lsi-n-/
http://lsi.arqreenhouse.com/lsi/LSIpapers.htiTil
Dumais (1993) LSI TREC bilan uchrashdi: Holat hisoboti.
Dumais (1994) Yashirin semantik indekslash (LSI) va TREC-2.
Dumais (1995) Ma'lumotni filtrlash uchun LSIdan foydalanish: TREC-3 tajribalari.
M. Berri, S. Dyume va G. O'Brayen. Aqlli ma'lumot olish uchun chiziqli algebradan foydalanish. SIAM sharhi, 37 (4): 573--595, 1995.
|