Xotirada bir martalik indekslash




Download 30.46 Kb.
bet5/8
Sana25.03.2023
Hajmi30.46 Kb.
#46649
1   2   3   4   5   6   7   8
Bog'liq
5-ma\'ruza
xudo xoxlasa tushadi99%, 3-labarotoriya ishi Saralash usul va algoritmlarini tadqiq qilis, cmd buyruqlari, Incremental model nima, 1matematik, word sAM 1 savol, Документ Microsoft Word (4), Ma\'ruzalar (2), ЛАБОРАТОРНАЯ РАБОТА N1, Dasturlash 2, Ariza, Qalandarova Gulshoda, 1648631455, 1650692784, 1651669892 (2)
4.3. Xotirada bir martalik indekslash
4.3. Bir martalik xotirada indekslash Saralashga asoslangan blok indeksatsiyasi mukammal miqyosga ega, ammo uni amalga oshirish uchun har bir atama termID identifikatori bilan bog'lanishi kerak. Juda katta to'plamlar uchun kerakli ma'lumotlar tuzilishi xotiraga sig'masligi mumkin. Miqyos jihatidan samaraliroq - bu bir martalik xotirada indekslash yoki SPIMI algoritmi. Ushbu algoritmda ularning identifikatorlari emas, balki atamalar qo'llaniladi, har bir blokning lug'atini diskka yozadi va keyin yangi blok uchun yangi lug'at yaratishni boshlaydi. Agar sizda disk maydoni etarli bo'lsa, SPIMI algoritmidan istalgan o'lchamdagi to'plamni indekslash uchun foydalanishingiz mumkin. SPIMI algoritmi shakl.
4.4. Algoritmning hujjatlarni ajratib ko'rsatadigan qismi va ularni termin-docID juftlari oqimiga aylantiradigan qismi, bu erda biz ushbu belgilarda belgi deb ataymiz. SPIMI-Invert funktsiyasi butun to'plam qayta ishlanguncha tokenlar oqimiga qayta-qayta qo'llaniladi. SPIMI-Invert Uoken_stream) 1 outputJUe Qisqacha aytganda, ushbu kamchilik (global lug'atga ehtiyoj) quyida tavsiflangan SPIMI algoritmining asosiy xususiyatidan (so'zlarning joylarini terminlardan ajratish) to'liq mustaqil va mustaqil ravishda bartaraf etilishi mumkin. -- Eslatma. tahrir. suv ombori BSBI algoritmi). SPIMI algoritmida har bir teskari ro'yxat dinamik (ya'ni uning hajmi kerak bo'lganda kattalashadi) va darhol yozuvlarni saqlash uchun mavjud bo'ladi. Ushbu yondashuvning ikkita afzalligi bor: u tezroq, chunki u saralashni o'z ichiga olmaydi va xotirani tejaydi, chunki u atamaning tegishli teskari ro'yxat bilan bog'liqligini kuzatib boradi va ushbu ro'yxatlar uchun lermlD identifikatorlarini saqlashga hojat yo'q.
Natijada, SPIMI-Invert funktsiyasi qo'llaniladigan bloklar ancha kattaroq bo'lishi mumkin va umumiy indekslarni kompilyatsiya qilish jarayoni samaraliroq bo'ladi. Birinchi marta tanishganimizda muddat uchun teskari ro'yxat qancha bo'lishini bilmasligimiz sababli, avvaliga qisqa vaqt uchun xotira ajratamiz teskari ro'yxat, so'ngra har safar to'ldirgandan so'ng uni ko'paytiramiz (8 va 9- qatorlar) .3 Bu shuni anglatadiki, ba'zi bir xotira yo'qoladi va qidiruv ma'lumotlar tuzilmalarida termin identifikatorlarini e'tiborsiz qoldirib xotirani saqlash mumkin bo'lmaydi. Shu bilan birga, SPIM1 algoritmida dinamik ravishda qurilgan blok indeksining umumiy xotirasi talablari BSBI algoritmiga qaraganda pastroq. Xotiramiz tugagandan so'ng biz blok indeksini (lug'at va teskari ro'yxatlardan iborat) diskka yozamiz (12-qator). Biroq, bundan oldin, atamalar saralanishi kerak (II satr), chunki teskari ro'yxatlar leksikografik tartibda yozilishi kerak. Bu birlashuvning yakuniy bosqichini bajarishni osonlashtiradi. Agar har bir blokning teskari ro'yxatlari tartibsiz yozilgan bo'lsa, har bir blokni bitta ketma-ket izlashda bloklarni birlashtirish mumkin bo'lmaydi. Har bir qo'ng'iroqda SPIMI-Invert funktsiyasi, xuddi BSBI algoritmida bo'lgani kabi, blokni diskka yozadi. SPIMI algoritmining so'nggi bosqichida (7-qatorga to'g'ri keladi) Anjir. 4.2 va shaklda ko'rsatilmagan. 4.4), bloklar oxirgi teskari indeksga birlashtiriladi. Har bir blok uchun yangi lug'at tuzilishini yaratish va qimmat saralash bosqichini yo'q qilishdan tashqari, SPIMI algoritmi yana bir muhim xususiyatga ega: siqishni4.
Agar siz siqishni qo'llasangiz, unda so'zlarni aniqlash va so'z birikmalarining ikkalasi ham diskda ixcham saqlanishi mumkin. Siqish algoritm samaradorligini yanada oshiradi, chunki u kattaroq bloklarni qayta ishlashga imkon beradi va diskdagi alohida bloklarni saqlash uchun xotirani tejaydi. Algoritmning ushbu jihati adabiyotlarda batafsil tavsiflangan Indekslash robotlar tomonidan amalga oshiriladi, ular ikki xil: Asosiy.
Ular tarkibida taqdim etilgan sahifalar tarkibini tahlil qilishadi. Tez. Internet-resursni yangilashdan so'ng qo'shilgan yangi ma'lumotlarni tahlil qiladi va indekslaydi. Indekslash mavzusida farq qiluvchi boshqa robotlar ham mavjud: rasmlar, RSS lentalari va boshqa materiallar bilan ishlashning maxsus mexanizmlari. Indeksga tezroq sayt qo'shilsa, siz birinchi tashrif buyuruvchilaringizni tezroq ko'rasiz. Google tomonidan indeksatsiya bir necha kun davom etadi, Yandex tomonidan indeksatsiya bir necha hafta davom etadi. Google va Yandex tizimlarida indeksatsiyani tekshiring Resursingiz indekslanganligini tekshirish uchun siz bir necha usullardan foydalanishingiz mumkin:
Indeksator o'qiydi va yozadi, shuningdek ikkala oraliq indeks fayllarini ham, yakuniy indeksni ham siqadi va arxivdan ochadi. Veb-qidiruvda hujjatlar lokal fayl tizimi(lokal disk-HDD)da saqlanmaydi, balki ularni maxsus robot yordamida yuklab olinadi. Korporativ tizimlarda aksariyat hujjatlar turli xil axborot tizimlarida, pochta dasturlarida va ma'lumotlar omborlarida saqlanadi. Tegishli misollar 4.7-bo'limda keltirilgan. Shumga qaramay ushbu ilova dasturlarning aksariyati http protokoli orqali ishlash imkoniyati mavjud, odatda dasturning o’z interfeyslari yanada samaraliroq bo’ladi (Application Programming Interfaces — API). O'quvchilar indekslash jarayoniga manba kodini etkazib beradigan quyi tizimlarni yaratish o'z-o'zidan qiyin bo'lishi mumkinligini bilishlari kerak.

Download 30.46 Kb.
1   2   3   4   5   6   7   8




Download 30.46 Kb.