Saralashga asoslangan blok indeksatsiyasi




Download 30.46 Kb.
bet3/8
Sana25.03.2023
Hajmi30.46 Kb.
#46649
1   2   3   4   5   6   7   8
Bog'liq
5-ma\'ruza
xudo xoxlasa tushadi99%, 3-labarotoriya ishi Saralash usul va algoritmlarini tadqiq qilis, cmd buyruqlari, Incremental model nima, 1matematik, word sAM 1 savol, Документ Microsoft Word (4), Ma\'ruzalar (2), ЛАБОРАТОРНАЯ РАБОТА N1, Dasturlash 2, Ariza, Qalandarova Gulshoda, 1648631455, 1650692784, 1651669892 (2)
4.2. Saralashga asoslangan blok indeksatsiyasi. Koordinatasiz indeksni tuzishning asosiy bosqichlari 1.4.-rasmda keltirilgan. Dastlab, u aniqlangan to'plamlardan o'tadi va barcha “termin-docID” juftlarini to'playdi. So'ngra juftliklar saralanadi, bu atama asosiy kalit sifatida ishlatiladi, ikkilamchi kalit sifatida docID ishlatiladi. Yakuniy bosqichda har bir davr uchun hujjat identifikatorlari teskari ro'yxatga kiritiladi va statistik tavsiflar hisoblab chiqiladi, masalan, hujjatdagi atamalarning chastotasi (TF) va hujjat chastotasi (DF). Uncha katta bo’lmagan to'plamlar uchun bularning barchasi tezkor xotirada bajarilishi mumkin. Ushbu bobda ikkinchi darajali xotiradan foydalanishni talab qiladigan katta to'plamlar bilan ishlash texnikasi tasvirlangan. Indekslash samaradorligini oshirish uchun biz terminlarni termID atamali identifikatorlari (satrlar o'rniga 1.4-rasmda ko'rsatilgandek) sifatida ifodalaymiz, bu erda har bir termID identifikatori noyob tartib raqami.
Terminalarni termin identifikatorlari shaklda ko’rsatish to'plamni qayta ishlash paytida amalga oshirilishi mumkin yoki ikki o'tish usulida birinchi pasda leksikonni tuzish va ikkinchi yo'lda teskari indeks yaratish mumkin. Ushbu bobda faqat bir martalik o'tish indekslarini yaratish algoritmlari tasvirlangan. Ba'zi dasturlarda, masalan, disk maydoni cheklangan bo'lsa, maqul kelgan ko'p o'tkazuvchanlik usuli bo'yicha hujjatlarga havolalar 4.7-bo'limda keltirilgan. Ushbu bobda misol sifatida biz taxminan 1 Gb hajmdagi Reuters-RCVl to'plamidan foydalanamiz. U bir yil davomida, ya'ni 1996 yil 20 avgustdan 1997 yil 19 avgustgacha, taxminan 800 ming Reuters hujjatli yangiliklar lentasi mavjud. 4.1 rasmda odatdagi hujjat ko'rsatilgan. Shuni ta'kidlash kerakki, ushbu kitobda biz multimediyali axborotlarga diqqat qaratmaymiz, balki matnli axborotga e'tibor qaratamiz. Reuter-RCVl kolleksiyasi siyosat, biznes, sport va ilm-fan (yuqoridagi misolda bo'lgani singari)ga oid ko'plab xalqaro mavzularni qamrab oladi. Ushbu to'plamning ba'zi bir asosiy xususiyatlari 4.2-jadvalda umumlashtirilgan. Reuters-RCVl to'plami 100 million matnni tashkil etadi. Shunday qilib, ushbu to'plam uchun barcha “termID-docID” juftlari to'plamini yaratish uchun 0,8 Gb xotira kerak bo'ladi, bu termID va docID uchun har biri 4 baytdan foydalanadi. Hozirgi vaqtda odatiy kollektsiyalar Reuters-RCVl kollektsiyasidan bir yoki hatto ikki baravar katta. Bunday "termID-docID" juftliklarini saralashga urinish kuchli zamonaviy kompyuterlarning tezkor xotirasida ham qiyinchilik tug’dirishini osongina ko'rishingiz mumkin.

Download 30.46 Kb.
1   2   3   4   5   6   7   8




Download 30.46 Kb.

Bosh sahifa
Aloqalar

    Bosh sahifa



Saralashga asoslangan blok indeksatsiyasi

Download 30.46 Kb.