• A = USV
  • 3-qadam: U va V ning birinchi ustunlarini va S
  • 4-qadam
  • 5-qadam
  • 6-qadam
  • Hujjat atamasi matritsasining
  • yashirin semantik makonda ichki mahsulotga
  • A past Frobenius xatosining
  • -qadam : Terminning og'irliklarini baholang va




    Download 309,92 Kb.
    bet6/6
    Sana20.12.2023
    Hajmi309,92 Kb.
    #124438
    1   2   3   4   5   6
    -qadam : Terminning og'irliklarini baholang va hujjat matritsasi A va so'rovlar matritsasi tuzing :­

    Shartlar
    yuk kumush yuk mashinasida shikastlangan yetkazib yong'in oltin keldi
    2-qadam: SVD yordamida A matritsasini parchalang va U, S va V matritsalarini toping.
    A = USV T

    -0,4201

    0,0748

    -0,0460

    -0,2995

    -0,2001

    0,4078

    -0,1206

    0,2749

    -0,4538

    -0,1576

    -0 3046

    -0.2006

    -0,1206

    0,2749

    -0,4538

    -0,2626

    0,3794

    0,1547

    -0,4201

    0,0748

    -0,0460

    -0,4201

    0,0748

    -0,0460

    -0,2626

    0,3794

    0,1547

    -0,3151

    -0,6093

    -0,4013

    -0,2995

    -0 2001 yil

    0,4078





    -0,4945 0,6492 -0,5780


    -0,6458 -0,7194 -0,2556
    -0,5817 0,2469 0,7750


    4.0989


    S = 0,0000


    0,0000


    0,0000
    2.3616
    0,0000


    0,0000
    0,0000
    1.2737


    d1 d2 d3


    V T =


    -0,4945
    0,6492


    -0,5780


    -0,6458 -0,5817
    -0,7194 0,2469
    -0,2556 0,7750




    3-qadam: U va V ning birinchi ustunlarini va S ning birinchi ustunlari va qatorlarini saqlab, 2-darajali yaqinlashuvni amalga oshiring.













    -0.4201
    -0.2995
    -0.1206
    -0.1576
    -0.1206
    -0.2626
    -0.4201
    -0.4201
    -0.2626
    -0.3151
    -0.2995

    0 0748
    -0.2001
    0.2749
    -0.3046
    0.2749 0.3794 0.0748 0.0748 0.3794
    -0.6093
    -0.2001

    Sk

    к =2

    4.0989

    0 0000

    0.0000
    2.3616

    -0.4945 0.6492
    -0.6458 -0.7194
    -0.5817 0.2469

    VT « VT =
    к

    -0.4945
    0.6492

    -0.6458
    -0.7194

    -0 5817 0.2469


    Bu 0 ta yozuv ko'rsatilmagan kesilgan tasvirdir.

    • 4-qadam: Ushbu qisqartirilgan ikki o'lchovli bo'shliqda yangi hujjat vektor koordinatalarini toping .

    • T ustunlari alohida hujjat vektorlarining koordinatalarini o'z ichiga oladi:

    . d1 =(-0,4945, 0,6492)
    - d2=(-0,6458, -0,7194)
    ■ d3=(-0,5817, 0,2469)

    • 5-qadam: Qisqartirilgan 2 o'lchovli fazoda yangi so'rov vektor koordinatalarini toping.

    . q = q T U k S k 1



    q = [00000100011




    -0.4201

    0.0748

    I




    -0.2995

    -0.2001




    -0.1206

    0.2749




    -0.1576

    -0.3046




    -0.1206

    0.2749




    -0.2626

    0.3794




    -0.4201

    0.0748




    -0.4201

    0.0748




    -0.2626

    0.3794




    -0.3151

    -0.6093




    -0.2995

    -0.2001




    1
    4.0989
    0.0000

    0.0000
    1

    2.3616


    -0,2140 -0,1821

    • 6-qadam: Hujjatlarni so'rov hujjatining kosinus o'xshashliklarini kamaytirish tartibida tartiblang ­.

    q ♦ d
    (-C.2140) (-0.4945) + (-0.1821) (0.6492)
    sim (q. d p = = -0,0541
    U (-0,2140) 2 + (-0 1821) 2 U (-0,4945) 2 + (0 6492) 2
    (-0 2140) (-0,6458) + (-0,1821) (-0,7194)
    sim(q. <1* = 0-9910
    U (-0,2140; 2 + (-0 1821) 2 U (-0 6458) 2 + (-0,7194) 2
    (-0 2140) (-0,5817) + (-0,1821) (0,2469)
    sim(q, d = - 0,4478
    U (-0,2140) 2 + (-0 1821) 2 U(-0,5817) 2 + (0,2469) 2
    Hujjatlarni kamayish tartibida tartiblash
    d 2 > d 3 > d,
    Buni sinab ko'ring OP http://www.bluebit.gr/rnatrix-calculator/calculate.aspx

    1 1 0
    A=1 0 1
    1 0 1
    Singular qiymatning parchalanishi:
    -0,460 0,888 0,000
    -0,628 -0,325 -0,707
    -0,628 -0,325 0,707
    2,175 0,000 0,000
    0,000 1,126 0,000
    0,000 0,000 0,000
    V T
    -0,789 -0,211 -0,577
    0,211 0,789 -0,577
    0,577 -0,577 -0,577

    -1.001 1.000
    -1.366 -0.366
    -1.366 -0.366


    U k = -0,460 0,888 x S k =2,175 0,000 x V T k =-0,789 -0,211 -0,577
    -0,628 -0,325 0,000 1,126 0,211 0,789 -0,577
    -0,628 -0,325
    1.001 1.000 0.001
    1,001 -0,001 0,999
    1,001 -0,001 0,999
    Yashirin semantik tahlil - Xulosa

    • Hujjat atamasi matritsasining past darajali yaqinlashuvini bajaring (odatda 100-300 daraja)

    • Umumiy fikr

    • Hujjatlarni (va atamalarni) past o'lchamli tasvirga xaritalash.

    • Xaritani shunday tuzingki, past o'lchamli bo'shliq semantik assotsiatsiyalarni (yashirin semantik bo'shliq) aks ettiradi.

    • Ushbu yashirin semantik makonda ichki mahsulotga asoslangan hujjat o'xshashligini hisoblang

    • Maqsadlar

    • Shunga o'xshash atamalar past o'lchamli makonda o'xshash joyni ko'rsatadi

    • O'lchamlarni kamaytirish orqali shovqinni kamaytirish

    ■ NLP va IRning ko'plab sohalarida qimmatli vosita ekanligini isbotladi

    • umumlashtirish

    • tillararo IR

    • mavzularni segmentatsiyalash

    • matn tasnifi

    • savol javob

    • Ko'proq

    • Naqshni aniqlash va qidirishning ko'p sozlamalarida bizda xususiyat-ob'ekt matritsasi mavjud.

    • Matn uchun atamalar xususiyatlar, hujjatlar esa ob'ektlardir.

    • Fikrlar va foydalanuvchilar bo'lishi mumkin ...

    • Ushbu matritsa o'lchovlilikda ortiqcha bo'lishi mumkin.

    • Past darajali yaqinlashish bilan ishlashi mumkin.

    • Agar yozuvlar etishmayotgan bo'lsa (masalan, foydalanuvchilarning fikri), o'lcham past bo'lsa, uni tiklash mumkin.

    • Kuchli umumiy analitik texnika

    • Klasterlash usullariga yaqin, printsipial analog.

    LSA - Muammolar

    • SVD Algoritm murakkabligi O(p l 2k l 3)

    • n = atamalar soni

    • k = semantik makondagi o'lchamlar soni (odatda kichik ~50 dan 350 gacha)

    Barqaror hujjatlar to'plami uchun faqat bir marta ishga tushirish kerak Dinamik hujjatlar to'plamlari: SVD-ni qayta ishga tushirish kerak bo'lishi mumkin, lekin yangi hujjatlarni "katlash" ham mumkin.
    ■ Semantik makon uchun optimal hajmni topish

    • aniqlik-eslash yaxshilanadi, chunki o'lcham optimal darajaga yetguncha kattalashadi, so'ngra standart vektor modeliga yetguncha asta-sekin kamayadi.

    • SVD ni katta o'lchamli bir marta ishga tushiring, aytaylik k = 1000

    • keyin <= k o'lchamlarni sinab ko'rish mumkin

    ■ ko'p vazifalarda 150-350 yaxshi ishlaydi, hali tadqiqot uchun joy
    SVD
    To'liq bo'lmagan darajali matritsalarda


    m terms







    m terms





    Lug‘at k ga bo‘lingan mavzular (klasterlar); har bir hujjat faqat bitta mavzuni muhokama qiladi.


    m terms





    , bu matritsaga yaxshi rank-/< yaqinlashuvi mavjud .



    tozalovchi shina
    V6


    3 qulf 1


    Blok 2


    Bir nechta noldan farqli yozuvlar






    Bir nechta noldan farqli yozuvlar
    Blok k


    mashina
    avtomobil



    Oddiy rasm



    1-mavzu


    2-mavzu


    3-mavzu




    Ba'zi yovvoyi ekstrapolyatsiya

    • Korpusning "o'lchovliligi" - unda ifodalangan turli mavzular soni.

    • Ko'proq matematik yovvoyi ekstrapolyatsiya:

    ■ agar A past Frobenius xatosining k darajali yaqinlashuviga ega bo'lsa , u holda korpusda k dan ortiq turli mavzular mavjud emas .
    Empirik natijalar

    • TREC 1/2/3 - Dumais bo'yicha tajribalar

    • Lanczos SVD kodi (netlib-da mavjud) Berri tufayli ushbu ekspluatatsiyalarda foydalanilgan

    ■ O'n minglab hujjatlarda ~ bir kunlik ish vaqti
    ■ O'lchovlar - har xil qiymatlar 250-350 haqida xabar berilgan
    ■ (200 dan kam odam qoniqarsiz deb hisoblangan)

    • Umuman olganda, eslab qolish yaxshilanadi - aniqlik haqida nima deyish mumkin?

    • O'rtacha TREC aniqligida yoki undan yuqori aniqlik

    • TREC mavzularining deyarli 20% bo'yicha eng yaxshi to'purar

    • To'g'ri vektor bo'shliqlariga qaraganda o'rtacha bir oz yaxshiroq

    • Hajmining ta'siri:

    O'lchamlari

    Aniqlik

    250

    0,367

    300

    0,371

    346

    0,374

    Muvaffaqiyatsizlik rejimlari

    • Inkor qilingan iboralar

    ■ TREC mavzulari ba'zan ma'lum so'rovlar/term iboralarni inkor etadi - mavzularni avtomatik ravishda o'zgartirish

    • Mantiqiy so'rovlar

    • Odatdagidek, LSI so'rovlarining erkin matn/vektorli bo'shliq sintaksisi (aytaylik) "Quyidagi 5 ta kompaniya bilan bog'liq bo'lgan har qanday hujjatni toping" degan ma'noni istisno qiladi.

    • Ko'proq ma'lumot uchun Dumaisga qarang.

    Resurslar

    • http://nlp.stanford.edu/IR-book/html/htmledition/matrix- decompositions-and-latent-semantic-indexinq-1.html

    • http://www.cs.utk.edu/~berry/lsi-n-/

    • http://lsi.arqreenhouse.com/lsi/LSIpapers.htiTil

    • Dumais (1993) LSI TREC bilan uchrashdi: Holat hisoboti.

    • Dumais (1994) Yashirin semantik indekslash (LSI) va TREC-2.

    • Dumais (1995) Ma'lumotni filtrlash uchun LSIdan foydalanish: TREC-3 tajribalari.

    • M. Berri, S. Dyume va G. O'Brayen. Aqlli ma'lumot olish uchun chiziqli algebradan foydalanish. SIAM sharhi, 37 (4): 573--595, 1995.

    Download 309,92 Kb.
    1   2   3   4   5   6




    Download 309,92 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    -qadam : Terminning og'irliklarini baholang va

    Download 309,92 Kb.