-qadam : Terminning og'irliklarini baholang va

Download 309,92 Kb.
bet	6/6
Sana	20.12.2023
Hajmi	309,92 Kb.
	#124438

1 2 3 4 5 6

-qadam : Terminning og'irliklarini baholang va hujjat matritsasi A va so'rovlar matritsasi tuzing :

Shartlar
yuk kumush yuk mashinasida shikastlangan yetkazib yong'in oltin keldi
2-qadam: SVD yordamida A matritsasini parchalang va U, S va V matritsalarini toping.
A = USV ^T

-0,4201	0,0748	-0,0460
-0,2995	-0,2001	0,4078
-0,1206	0,2749	-0,4538
-0,1576	-0 3046	-0.2006
-0,1206	0,2749	-0,4538
-0,2626	0,3794	0,1547
-0,4201	0,0748	-0,0460
-0,4201	0,0748	-0,0460
-0,2626	0,3794	0,1547
-0,3151	-0,6093	-0,4013
-0,2995	-0 2001 yil	0,4078

-0,4945 0,6492 -0,5780

-0,6458 -0,7194 -0,2556
-0,5817 0,2469 0,7750

4.0989

S = 0,0000

0,0000

0,0000
2.3616
0,0000

0,0000
0,0000
1.2737

d1 d2 d3

V ^T=

-0,4945
0,6492

-0,5780

-0,6458 -0,5817
-0,7194 0,2469
-0,2556 0,7750

■ 3-qadam: U va V ning birinchi ustunlarini va S ning birinchi ustunlari va qatorlarini saqlab, 2-darajali yaqinlashuvni amalga oshiring.

-0.4201
-0.2995
-0.1206
-0.1576
-0.1206
-0.2626
-0.4201
-0.4201
-0.2626
-0.3151
-0.2995

0 0748
-0.2001
0.2749
-0.3046
0.2749 0.3794 0.0748 0.0748 0.3794
-0.6093
-0.2001

^Sk

к =2

4.0989

0 0000

0.0000
2.3616

-0.4945 0.6492
-0.6458 -0.7194
-0.5817 0.2469

V^T « V^T =
к

-0.4945
0.6492

-0.6458
-0.7194

-0 5817 0.2469

Bu 0 ta yozuv ko'rsatilmagan kesilgan tasvirdir.

4-qadam: Ushbu qisqartirilgan ikki o'lchovli bo'shliqda yangi hujjat vektor koordinatalarini toping .
^Tustunlari alohida hujjat vektorlarining koordinatalarini o'z ichiga oladi:

. d1 =(-0,4945, 0,6492)
- d2=(-0,6458, -0,7194)
■ d3=(-0,5817, 0,2469)

5-qadam: Qisqartirilgan 2 o'lchovli fazoda yangi so'rov vektor koordinatalarini toping.

. q = q ^TU _kS _k¹

q = [00000100011	-0.4201	0.0748
I	-0.2995	-0.2001
	-0.1206	0.2749
	-0.1576	-0.3046
	-0.1206	0.2749
	-0.2626	0.3794
	-0.4201	0.0748
	-0.4201	0.0748
	-0.2626	0.3794
	-0.3151	-0.6093
	-0.2995	-0.2001

1
4.0989
0.0000

0.0000
1
2.3616

-0,2140 -0,1821

6-qadam: Hujjatlarni so'rov hujjatining kosinus o'xshashliklarini kamaytirish tartibida tartiblang .

q ♦ d
(-C.2140) (-0.4945) + (-0.1821) (0.6492)
sim (q. d p = — = -0,0541
U (-0,2140) ²+ (-0 1821) ² U (-0,4945) ²+ (0 6492) ²
(-0 2140) (-0,6458) + (-0,1821) (-0,7194)
sim(q. <1* ⁼0-9910
U (-0,2140; ²+ (-0 1821) ² U (-0 6458) ²+ (-0,7194) ²
(-0 2140) (-0,5817) + (-0,1821) (0,2469)
sim(q, d = - 0,4478
U (-0,2140) ²+ (-0 1821) ² U(-0,5817) ²+ (0,2469) ²
Hujjatlarni kamayish tartibida tartiblash
d ₂> d ₃> d,
Buni sinab ko'ring OP http://www.bluebit.gr/rnatrix-calculator/calculate.aspx

1 1 0
A=1 0 1
1 0 1
Singular qiymatning parchalanishi:
-0,460 0,888 0,000
-0,628 -0,325 -0,707
-0,628 -0,325 0,707
2,175 0,000 0,000
0,000 1,126 0,000
0,000 0,000 0,000
V ^T
-0,789 -0,211 -0,577
0,211 0,789 -0,577
0,577 -0,577 -0,577

-1.001 1.000
-1.366 -0.366
-1.366 -0.366

U _k= -0,460 0,888 x S _k=2,175 0,000 x V ^T_k=-0,789 -0,211 -0,577
-0,628 -0,325 0,000 1,126 0,211 0,789 -0,577
-0,628 -0,325
1.001 1.000 0.001
1,001 -0,001 0,999
1,001 -0,001 0,999
Yashirin semantik tahlil - Xulosa

Hujjat atamasi matritsasining past darajali yaqinlashuvini bajaring (odatda 100-300 daraja)
Umumiy fikr
Hujjatlarni (va atamalarni) past o'lchamli tasvirga xaritalash.
Xaritani shunday tuzingki, past o'lchamli bo'shliq semantik assotsiatsiyalarni (yashirin semantik bo'shliq) aks ettiradi.
Ushbu yashirin semantik makonda ichki mahsulotga asoslangan hujjat o'xshashligini hisoblang
Maqsadlar

Shunga o'xshash atamalar past o'lchamli makonda o'xshash joyni ko'rsatadi
O'lchamlarni kamaytirish orqali shovqinni kamaytirish

■ NLP va IRning ko'plab sohalarida qimmatli vosita ekanligini isbotladi

umumlashtirish
tillararo IR
mavzularni segmentatsiyalash
matn tasnifi
savol javob
Ko'proq

Naqshni aniqlash va qidirishning ko'p sozlamalarida bizda xususiyat-ob'ekt matritsasi mavjud.
Matn uchun atamalar xususiyatlar, hujjatlar esa ob'ektlardir.
Fikrlar va foydalanuvchilar bo'lishi mumkin ...
Ushbu matritsa o'lchovlilikda ortiqcha bo'lishi mumkin.
Past darajali yaqinlashish bilan ishlashi mumkin.
Agar yozuvlar etishmayotgan bo'lsa (masalan, foydalanuvchilarning fikri), o'lcham past bo'lsa, uni tiklash mumkin.
Kuchli umumiy analitik texnika
Klasterlash usullariga yaqin, printsipial analog.

LSA - Muammolar

SVD Algoritm murakkabligi O(p ^l2k ^l3)
n = atamalar soni
k = semantik makondagi o'lchamlar soni (odatda kichik ~50 dan 350 gacha)

Barqaror hujjatlar to'plami uchun faqat bir marta ishga tushirish kerak Dinamik hujjatlar to'plamlari: SVD-ni qayta ishga tushirish kerak bo'lishi mumkin, lekin yangi hujjatlarni "katlash" ham mumkin.
■ Semantik makon uchun optimal hajmni topish

aniqlik-eslash yaxshilanadi, chunki o'lcham optimal darajaga yetguncha kattalashadi, so'ngra standart vektor modeliga yetguncha asta-sekin kamayadi.
SVD ni katta o'lchamli bir marta ishga tushiring, aytaylik k = 1000
keyin <= k o'lchamlarni sinab ko'rish mumkin

■ ko'p vazifalarda 150-350 yaxshi ishlaydi, hali tadqiqot uchun joy
SVD
To'liq bo'lmagan darajali matritsalarda

m terms

m terms

Lug‘at k ga bo‘lingan mavzular (klasterlar); har bir hujjat faqat bitta mavzuni muhokama qiladi.

m terms

, bu matritsaga yaxshi rank-/< yaqinlashuvi mavjud .

tozalovchi shina
V6

3 qulf 1

Blok 2

Bir nechta noldan farqli yozuvlar

Bir nechta noldan farqli yozuvlar
Blok k

mashina
avtomobil

Oddiy rasm

1-mavzu

2-mavzu

3-mavzu

Ba'zi yovvoyi ekstrapolyatsiya

Korpusning "o'lchovliligi" - unda ifodalangan turli mavzular soni.
Ko'proq matematik yovvoyi ekstrapolyatsiya:

■ agar A past Frobenius xatosining k darajali yaqinlashuviga ega bo'lsa , u holda korpusda k dan ortiq turli mavzular mavjud emas .
Empirik natijalar

TREC 1/2/3 - Dumais bo'yicha tajribalar
Lanczos SVD kodi (netlib-da mavjud) Berri tufayli ushbu ekspluatatsiyalarda foydalanilgan

■ O'n minglab hujjatlarda ~ bir kunlik ish vaqti
■ O'lchovlar - har xil qiymatlar 250-350 haqida xabar berilgan
■ (200 dan kam odam qoniqarsiz deb hisoblangan)

Umuman olganda, eslab qolish yaxshilanadi - aniqlik haqida nima deyish mumkin?
O'rtacha TREC aniqligida yoki undan yuqori aniqlik

TREC mavzularining deyarli 20% bo'yicha eng yaxshi to'purar
To'g'ri vektor bo'shliqlariga qaraganda o'rtacha bir oz yaxshiroq
Hajmining ta'siri:

O'lchamlari	Aniqlik
250	0,367
300	0,371
346	0,374

Muvaffaqiyatsizlik rejimlari

Inkor qilingan iboralar

■ TREC mavzulari ba'zan ma'lum so'rovlar/term iboralarni inkor etadi - mavzularni avtomatik ravishda o'zgartirish

Mantiqiy so'rovlar
Odatdagidek, LSI so'rovlarining erkin matn/vektorli bo'shliq sintaksisi (aytaylik) "Quyidagi 5 ta kompaniya bilan bog'liq bo'lgan har qanday hujjatni toping" degan ma'noni istisno qiladi.

Ko'proq ma'lumot uchun Dumaisga qarang.

Resurslar

http://nlp.stanford.edu/IR-book/html/htmledition/matrix- decompositions-and-latent-semantic-indexinq-1.html
http://www.cs.utk.edu/~berry/lsi-n-/
http://lsi.arqreenhouse.com/lsi/LSIpapers.htiTil
Dumais (1993) LSI TREC bilan uchrashdi: Holat hisoboti.
Dumais (1994) Yashirin semantik indekslash (LSI) va TREC-2.
Dumais (1995) Ma'lumotni filtrlash uchun LSIdan foydalanish: TREC-3 tajribalari.
M. Berri, S. Dyume va G. O'Brayen. Aqlli ma'lumot olish uchun chiziqli algebradan foydalanish. SIAM sharhi, 37 (4): 573--595, 1995.

Download 309,92 Kb.

1 2 3 4 5 6

Download 309,92 Kb.