• Axborotlarni izlash
  • 1-mavzu: Axborotlarni izlash va ajratib olish tushunchalari. Reja




    Download 16,28 Kb.
    Sana28.09.2024
    Hajmi16,28 Kb.
    #272794
    Bog'liq
    1-maruza


    1-mavzu: Axborotlarni izlash va ajratib olish tushunchalari.
    Reja:

    1. Axborotlami izlash va ajratish haqida asosiy tushunchalar.

    2. Axborotlarni ajratish va izlashning nazariy mezonlari.

    3. Axborot izlash strategiyasini loyihalash bosqichlari.

    4. Axborotni ajratish prinsiplari.

    Axborotlarni izlash
    "Axborot izlash" atamasi birinchi marta Kalvin Mur tomonidan 1948 yilda doktorlik dissertatsiyasida kiritilgan va 1950 yildan beri nashr etilgan va adabiyotda qo'llanilgan .
    Dastlab, avtomatlashtirilgan axborot tizimlari yoki axborot-qidiruv tizimlari (IRS) faqat ilmiy axborot va adabiyotlarni qidirish uchun ishlatilgan. Ko'pgina universitetlar va jamoat kutubxonalari kitoblar, jurnallar va boshqa hujjatlarga kirishni ta'minlash uchun IRSdan foydalanishni boshladilar. IPS Internetning paydo bo'lishi va World Wide Web ning rivojlanishi bilan keng tarqaldi . Yandex va Google qidiruv tizimlari rus tilida so'zlashuvchi foydalanuvchilar orasida eng mashhuri bo’lgan.
    Axborot qidirish - ma'lum bir hujjatlar to'plamida ( matnlarda ) ma'lum bir mavzuga (mavzuga) bag'ishlangan, oldindan belgilangan qidiruv shartini ( so'rovini ) qondiradigan yoki zarur (axborot ehtiyojlariga mos keladigan) faktlarni , ma'lumotlarni o'z ichiga olgan barcha narsalarni aniqlash jarayoni. , ma'lumotlar .
    Qidiruv jarayoni ma'lumotlarni to'plash, qayta ishlash va taqdim etishga qaratilgan operatsiyalar ketma-ketligini o'z ichiga oladi.
    Umuman olganda, ma'lumot qidirish to'rt bosqichdan iborat:
    axborotga bo'lgan ehtiyojni aniqlash (aniqlashtirish) va axborot so'rovlarini shakllantirish;
    axborot massivlarining (manbalarining) mumkin bo'lgan egalari yig'indisini aniqlash;
    aniqlangan ma'lumotlar massivlaridan ma'lumot olish;
    olingan ma'lumotlar bilan tanishish va qidiruv natijalarini baholash.
    Axborot izlash - ma'lum bir hujjatlar to'plamida (matnlarda) ma'lum bir mavzuga (mavzularga) bag'ishlangan, oldindan belgilangan qidiruv shartini (so'rovini) qondiradigan yoki zarur (axborot ehtiyojlariga mos keladigan) faktlar, ma'lumotlarni o'z ichiga olgan barcha narsalarni topish jarayoni.
    Axborotni izlash
    Axborotni izlash – bu axborotga bo'lgan ehtiyojni qondiradigan strukturalanmagan hujjatli ma'lumotlarni qidirish jarayoni
    2. Axborotni izlash bosqichlari
    Axborotni izlash bosqichlari
    Qidiruv jarayoni ma'lumotlarni to'plash, qayta ishlash va taqdim etishga qaratilgan operatsiyalar ketma-ketligini o'z ichiga oladi.
    Umuman olganda, ma'lumotni qidirish to'rt bosqichdan iborat:
    - axborotga bo'lgan ehtiyojni aniqlash (aniqlashtirish) va axborot so'rovini shakllantirish;
    - axborot massivlarining (manbalarining) mumkin bo'lgan egalari yig'indisini aniqlash;
    - aniqlangan axborot massivlaridan ma'lumotlarni ajratib olish;
    - olingan ma'lumotlar bilan tanishish va qidiruv natijalarini baholash.
    3. Axborotni izlash usullari
    Manzilli qidirish - So'rovda ko'rsatilgan sof rasmiy asoslar bo'yicha hujjatlarni qidirish jarayoni.
    Semantik qidiruv - Hujjatlarni mazmuni bo'yicha izlash jarayoni.
    Hujjatli qidiruv - Birlamchi hujjatlar yoki foydalanuvchi so'roviga mos keladigan ikkilamchi hujjatlar maʼlumotlar bazasi uchun axborot-qidiruv tizimini saqlash joyini izlash jarayoni.
    Faktli qidiruv- Axborot so'roviga mos keladigan faktlarni topish jarayoni.
    Axborotni izlash usullari
    Qidiruv tizimining asosiy komponentlari
    Qidiruv tizimining asosiy komponentlari: qidiruv roboti, indeksator, qidiruv tizimi.
    Qoida tariqasida, tizimlar bosqichma-bosqich ishlaydi. Birinchidan, brauzer so`rovni oladi, keyin indeksator qidiriladigan indeksni yaratadi va nihoyat, brauzer indekslangan ma'lumotlarni qidirish uchun funksionallikni ta'minlaydi. Qidiruv tizimini yangilash uchun ushbu indekslash davri takrorlanadi.
    Qidiruv roboti
    Qidiruv roboti (ing. Crawler) - sahifada topilgan barcha havolalarni avtomatik ravishda kuzatib boradigan va ularni ajrataydigan dastur
    Qidiruv tizimi keyingi indekslash uchun har bir sahifaning mazmunini tahlil qiladi. So'zlar sarlavhalardan, sahifa matnlaridan yoki maxsus maydonlardan - meta teglardan olinishi mumkin. Indeksator - sahifani qismlarga bo'lgandan so'ng, o'ziga xos leksik va morfologik algoritmlardan foydalangan holda tahlil qiladigan modul. Veb-sahifaning barcha elementlari ajratiladi va alohida tahlil qilinadi. Veb-sahifa ma'lumotlari keyingi so'rovlarda foydalanish uchun indeks ma'lumotlar bazasida saqlanadi. Indeks foydalanuvchi so'roviga ko'ra ma'lumotlarni tezda topish imkonini beradi.
    Qidiruv tizimi
    To'liq matnli qidiruv - hujjatning butun mazmunini qidirish. To'liq matnli qidiruvga misol har qanday Internet qidiruvi, masalan, www.yandex.ru , www.google.com . Odatda, to'liq matnli qidiruv qidiruvlarni tezlashtirish uchun oldindan tuzilgan indekslardan foydalanadi . To'liq matnli qidiruv indekslari uchun eng keng tarqalgan texnologiya teskari indekslardir .

    Metama'lumotlar bo'yicha qidirish - bu tizim tomonidan qo'llab-quvvatlanadigan muayyan hujjat atributlari bo'yicha qidiruv - hujjat nomi, yaratilgan sana, o'lcham, muallif va boshqalar. Tafsilotlar bo'yicha qidiruvga misol sifatida fayl tizimidagi qidiruv dialogini keltirish mumkin (masalan, MS Windows ).

    Rasmlarni qidirish - Tasvir mazmuni bo'yicha qidirish. Qidiruv tizimi fotosurat mazmunini taniydi (foydalanuvchi tomonidan yuklangan yoki rasmning URL manzili qo'shilgan). Qidiruv natijalarida foydalanuvchi shunga o'xshash rasmlarni oladi. Qidiruv tizimlari shunday ishlaydi: Polar Rose , Picollator va boshqalar.
    So'rovda ko'rsatilgan sof rasmiy belgilarga asoslangan hujjatlarni qidirish jarayoni.
    Amalga oshirish uchun quyidagi shartlar talab qilinadi:

    Hujjatda aniq manzil mavjud


    Saqlash qurilmasi yoki tizim xotirasida hujjatlarni joylashtirishda qat'iy tartibni ta'minlash .
    Hujjat manzillari veb-serverlar va veb-sahifalarning manzillari , bibliografik yozuvlar elementlari va hujjatlarni omborda saqlash manzillari bo'lishi mumkin.
    Hujjatli qidiruvning ikki turi:

    Birlamchi hujjatlarni topishga qaratilgan kutubxona.


    Bibliografik, bibliografik yozuvlar shaklida taqdim etilgan hujjatlar haqida ma'lumot topishga qaratilgan.
    Haqiqiy qidiruv
    Axborot so'roviga mos keladigan faktlarni topish jarayoni.
    Haqiqiy ma'lumotlarga birlamchi va ikkilamchi hujjatlardan olingan va ularning paydo bo'lish manbalaridan bevosita olingan ma'lumotlar kiradi.

    Ikkita tur mavjud:

    Hujjatli-faktual, faktlarni o'z ichiga olgan matn qismlari uchun hujjatlarni qidirishdan iborat.
    Faktli (faktlarning tavsifi), bu topilgan faktik ma'lumotlarni mantiqiy qayta ishlash orqali qidiruv jarayonida yangi faktik tavsiflarni yaratishni o'z ichiga oladi.
    Axborot izlash - kognitiv psixologiya , informatika , axborot dizayni , tilshunoslik , semiotika va kutubxonachilik chorrahasida joylashgan fanlararo katta sohadir .

    Axborot qidirish - bu oldindan belgilangan qidiruv sharti yoki so'rovini qondiradigan ma'lumotlar majmuasidagi yozuvlarni aniqlash jarayoni.

    IP hujjatlarda ma'lumot qidirishni , hujjatlarning o'zini qidirishni, hujjatlardan metama'lumotlarni ajratib olishni, mahalliy relyatsion ma'lumotlar bazalarida, Internet va mahalliy intranet tizimlari kabi gipermatnli ma'lumotlar bazalarida matn, tasvir, video va ovozni qidirishni ko'rib chiqadi .

    Ma'lumotlarni qidirish, hujjatlarni qidirish, ma'lumot olish va matnni qidirish tushunchalari atrofida biroz chalkashliklar mavjud. Biroq, ushbu tadqiqot yo'nalishlarining har birining o'ziga xos usullari, amaliy tajribasi va adabiyoti mavjud.



    Hozirgi vaqtda IP jadal rivojlanayotgan ilm-fan sohasi bo'lib, uning mashhurligi ma'lumotlar hajmining, xususan, Internetdagi eksponensial o'sishi bilan bog'liq . Keng adabiyotlar va ko'plab konferentsiyalar IPga bag'ishlangan. Eng mashhurlaridan biri TREC 1992 yilda AQSh Mudofaa vazirligi tomonidan Standartlar va Texnologiyalar Instituti ( NIST ) bilan birgalikda tadqiqot hamjamiyatini birlashtirish va IP sifatini baholash usullarini ishlab chiqish maqsadida tashkil etilgan.
    Xulosa sifatida shuni aytishimiz mumkinki, qidiruv tizimini qanchalik foydaliligi foydalanuvchiga qidiruv tizimini aniqligi, ya`ni, kerakli axborotni topib berishi, qanchalik tez vaqtda topib berishi bilan baxolanadi. Bu vazifani bajarish uchun qidiruv tizimlari mukammal bo`lishi, indekslash va teskari indekslash jarayonlari tezkor bo`lishi va kamxarj bo`lishi talab etiladi. Bunga erishish uchun esa, tabiiy tilni qidiruv tizimi tushunadigan tilga xatosiz o`tqazish kerak bo`ladi va buning uchun turli so`zlashuv tillarini lingvistikasini qidiruv tizimi tushunadigan tilga o`tqazish, yuqori samaradorlikga olib keladigan algoritmlar ishlab chiqish zaruriyati paydo bo`ladi. Bu muammolarni mukammal yecha oladigan inson yoki tashkilot shubxasiz o`sha tilda so`zlashuvchi davlat va jamiyatning rivoji uchun katta xissa qo`shgan xisoblanadi.
    Xulosa
    Download 16,28 Kb.




    Download 16,28 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    1-mavzu: Axborotlarni izlash va ajratib olish tushunchalari. Reja

    Download 16,28 Kb.