AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
12
Agar so‘zni saqlash uchun o‘rtacha 6 bayt, shu jumladan bo‘shliqlar
va tinish belgilari ajratilgan deb hisoblasak, bunday hujjatlar to'plami
taxminan 6 GB (GB) ni oladi.
Bunday hujjatlar M = 500 000 ga yaqin turli atamalarni o'z ichiga
olishi mumkin. Sodda tarzda “atama-hujjat” matritsasini yarata olmaymiz.
500K x 1M matritsada yarim trillion birlar va nollar mavjud - bu kompyuter
xotirasiga sig‘ish uchun juda katta.
Mantiqiy (Boolev) qidiruv
AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
13
Insidans (hosida) matritsasi juda siyrak, ya'ni, faqat oz sonli nolga
teng bo‘lmagan elementlarni o'z ichiga oladi. Har bir hujjat 1000 ta
so'zdan iborat bo'lganligi sababli, matritsada ko'pi bilan bir milliard so'z
bo'ladi, shuning uchun hujayralarning kamida 99,8 foizi noldan iborat
bo'ladi.
Xotirada faqat birliklarni saqlash ancha samarali.
Bu g'oya axborotni izlashda birinchi muhim kontseptsiya -
teskari indeks
uchun asosdir.
Mantiqiy (Boolev) qidiruv
AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
14
Teskari indeksni yaratish jarayoni quyidagi bosqichlardan iborat:
1. Biz indeksatsiya qilinadigan hujjatlarni yig'amiz. Ya'ni, biz to’plamni
(kollektsiya) shakllantiramiz.
2. Matnni belgilaymiz, har bir hujjatni tokenlar ro'yxatiga aylantiramiz.
3. Dastlabki lingvistik ishlovni amalga oshiramiz, indekslangan atamalar
bo'lgan normalashgan leksemalar ro‘yxatini tuzamiz.
4. Atama paydo bo'lgan hujjatlarni indekslaymiz, lug'at va so'z
pozitsiyalaridan iborat teskari indeks yaratamiz.
Mantiqiy (Boolev) qidiruv
AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
15
Dastlabki uch bosqich bajarilgan deb faraz qilsak, tartiblangan
indekslash asosida teskari indeks yaratish jarayonini ko‘rib chiqamiz.
Hujjatlar to'plamida har bir hujjat identifikatori
(docID)
deb
ataladigan noyob tartib raqamiga ega.
Mantiqiy (Boolev) qidiruv
|