• Indekslovchi robot
  • Axborot qidirish tizimlari




    Download 0,58 Mb.
    bet26/32
    Sana16.09.2024
    Hajmi0,58 Mb.
    #271195
    1   ...   22   23   24   25   26   27   28   29   ...   32
    Bog'liq
    Mavzu axborotni izlash reja

    Axborot qidirish tizimlari
    ISS ning asosiy komponenti qidiruv tizimidir, u foydalanuvchi so'rovini rasmiy tizim so'roviga aylantirish, axborot resurslariga havolalarni qidirish va foydalanuvchiga qidiruv natijalarini ko'rsatish uchun xizmat qiladi.
    Avval aytib o'tganimizdek, qidiruv indeks deb nomlangan maxsus ma'lumotlar bazasida amalga oshiriladi. Indeksning arxitekturasi shunday qidirib topilganki, qidirish imkon qadar tezroq bo'ladi va shu bilan birga topilgan resurslarning har birining qiymatini kuzatish mumkin bo'ladi. Ba'zi tizimlar foydalanuvchining so'rovlarini shaxsiy ma'lumotlar bazasida saqlaydi, chunki har bir so'rovni disk raskadrovka qilish ko'p vaqt talab etadi va qoniqarli javob berilgan so'rovlarni saqlash juda muhimdir.
    Indekslovchi robot- Internetni skanerlash va indekslar bazasini yangilab turish uchun xizmat qiluvchi dastur.
    Veb-saytlar - bu ISS kirish imkoniyatini beradigan axborot resurslari.
    Ma'lumki, veb-sahifa ko'plab elementlardan tashkil topgan murakkab hujjatdir. Robot dasturi tomonidan bunday hujjatni tavsiflashda ushbu so'zning veb-sahifaning qaysi qismida paydo bo'lishini hisobga olish kerak. WWW hujjatlari uchun indeksatsiya manbalari:
    Sarlavhalar (sarlavha).
    Sarlavhalar.
    Xulosa (Tavsif).
    Kalit so'zlar ro'yxati (KeyWords).
    Hujjatlarning to'liq matnlari.
    Aytgancha, WWW hujjatining to'liq matnini tavsiflovchi qidiruv tizimlari to'liq matnli deb nomlanadi.
    FTP resursidagi faylni tavsiflash uchun URL ishlatiladi. Yangiliklar guruhidagi maqolani tavsiflash uchun indekslash manbalari Mavzu va Kalit so'zlar maydonlari hisoblanadi.
    Indekslash jarayonida lug'atni normallashtirish ko'pincha amalga oshiriladi (so'zni asosiy shakliga keltiradi), ba'zi ma'lumotga ega bo'lmagan so'zlar, masalan, qo'shma so'zlar yoki predloglar e'tiborga olinmaydi. Har bir XKSda indeksatsiya jarayonida e'tiborga olinmaydigan to'xtatilgan so'zlarning o'z ro'yxati mavjud. Tillari juda o'zgaruvchan tizimlarda, masalan, rus tili, morfologiya hisobga olinadi.
    Morfologiyani hisobga olish ma'lum bir tilda turli xil so'zlar bilan ishlash qobiliyatini anglatadi.
    Bu erda rus tilining etarlicha murakkabligini ta'kidlash kerak, uning so'zlari raqamlar, holatlar, jinslar va zamonlarda o'zgaradi va ko'pincha kutilmagan tarzda. Masalan: yurish, yurish, yurish, yurish va h.k. Mavjud barcha IRSlar rus tilining morfologiyasini hisobga olgan holda Andrey Anatolyevich Zaliznyak tomonidan tuzilgan "Rus tilining grammatik lug'ati" dan foydalanadilar. Lug'at 90000 ta yozuvni o'z ichiga oladi; har bir so'z uchun uning o'zgarishi mumkinligi va qanday biriktirilganligi yoki konjuge qilinganligi to'g'risida ma'lumot beriladi.
    Yuqoridagilardan kelib chiqadiki, WWW haqida ma'lumot topishning asosiy vositalari ISS hisoblanadi.
    Biroq, Internetda yuqoridagi ISSdan tubdan farq qiluvchi qidiruv vositalari mavjud. Umuman olganda, WWW uchun quyidagi qidiruv vositalarini ajratib ko'rsatish mumkin:

    Download 0,58 Mb.
    1   ...   22   23   24   25   26   27   28   29   ...   32




    Download 0,58 Mb.