• AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
  • AXBOR OT L ARN I IZLASH VA AJRATIB OLISH




    Download 2.14 Mb.
    Pdf ko'rish
    bet3/11
    Sana01.10.2023
    Hajmi2.14 Mb.
    #85944
    1   2   3   4   5   6   7   8   9   10   11
    Bog'liq
    2- мавзу (АИА)
    1671528481 (1), 662f8c2918184a6f79d567bc, 662b91d7a40fb76941780404, 662b8f946a5e24f2e9fe9977, Ҳисоб-фактура актсиз 44 29.04.2024 дан
    AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
    12
    Agar so‘zni saqlash uchun o‘rtacha 6 bayt, shu jumladan bo‘shliqlar
    va tinish belgilari ajratilgan deb hisoblasak, bunday hujjatlar to'plami
    taxminan 6 GB (GB) ni oladi.
    Bunday hujjatlar M = 500 000 ga yaqin turli atamalarni o'z ichiga
    olishi mumkin. Sodda tarzda “atama-hujjat” matritsasini yarata olmaymiz.
    500K x 1M matritsada yarim trillion birlar va nollar mavjud - bu kompyuter
    xotirasiga sig‘ish uchun juda katta.


    Mantiqiy (Boolev) qidiruv
    AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
    13
    Insidans (hosida) matritsasi juda siyrak, ya'ni, faqat oz sonli nolga
    teng bo‘lmagan elementlarni o'z ichiga oladi. Har bir hujjat 1000 ta
    so'zdan iborat bo'lganligi sababli, matritsada ko'pi bilan bir milliard so'z
    bo'ladi, shuning uchun hujayralarning kamida 99,8 foizi noldan iborat
    bo'ladi.
    Xotirada faqat birliklarni saqlash ancha samarali.
    Bu g'oya axborotni izlashda birinchi muhim kontseptsiya -
    teskari indeks
    uchun asosdir.


    Mantiqiy (Boolev) qidiruv
    AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
    14
    Teskari indeksni yaratish jarayoni quyidagi bosqichlardan iborat:
    1. Biz indeksatsiya qilinadigan hujjatlarni yig'amiz. Ya'ni, biz to’plamni
    (kollektsiya) shakllantiramiz.
    2. Matnni belgilaymiz, har bir hujjatni tokenlar ro'yxatiga aylantiramiz.
    3. Dastlabki lingvistik ishlovni amalga oshiramiz, indekslangan atamalar
    bo'lgan normalashgan leksemalar ro‘yxatini tuzamiz.
    4. Atama paydo bo'lgan hujjatlarni indekslaymiz, lug'at va so'z
    pozitsiyalaridan iborat teskari indeks yaratamiz.


    Mantiqiy (Boolev) qidiruv
    AXBOR OT L ARN I IZLASH VA AJRATIB OLISH
    15
    Dastlabki uch bosqich bajarilgan deb faraz qilsak, tartiblangan
    indekslash asosida teskari indeks yaratish jarayonini ko‘rib chiqamiz.
    Hujjatlar to'plamida har bir hujjat identifikatori
    (docID)
    deb
    ataladigan noyob tartib raqamiga ega.


    Mantiqiy (Boolev) qidiruv

    Download 2.14 Mb.
    1   2   3   4   5   6   7   8   9   10   11




    Download 2.14 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    AXBOR OT L ARN I IZLASH VA AJRATIB OLISH

    Download 2.14 Mb.
    Pdf ko'rish