• Mezonlar Saralash mantiqi
  • Kommunikasiyalarini rivojlantirish vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti




    Download 11,41 Mb.
    Pdf ko'rish
    bet132/209
    Sana25.12.2023
    Hajmi11,41 Mb.
    #128215
    1   ...   128   129   130   131   132   133   134   135   ...   209
    Bog'liq
    Internet tarmoqlari va xizmatlari (1)

    23.2. Hujjatlarning daraja mezonlari 
     
    Qidiruv tizimlarida hujjatlarga havolalar so’rovlarga mos kelishiga qarab 
    saralanadi. Qidiruv berishida sahifalarni saralash uchun matn mezonlari, havola 
    mezonlari, foydalanish baholari mezonlari qo’llaniladi. 
    Matn mezonlari so’rovlarda, matnlarda, sahifa sarlavhasida so’zlar mosligi 
    bo’yicha hujjat relevantligi mezonlarini aniqlab beradi. 
    Hujjat relevantligi – hujjat mazmuni bilan qidiruv tizimining aniq 
    so’rovlari mos kelishini aks ettiruvchi ko’rsatkich. 
    Qidiruv tizimlari hujjatlarning relevantligini hisoblaydi, sahifada 
    uchraydigan so’z va so’z birikmalarining chastota qatorini quradi. Hujjatlarda 
    qanchalik ko’p uchrasa, foydalanuvchi so’rovlariga shunchalik ko’p relevantlik 
    oladi. 
    Qidiruv tizimlari hujjatlar Web-sahifalari relevantligining kamayish tartibi 
    10-20 tadan qismlarga bo’linib havolalarni aks ettiradi. Marketing tadqiqot 
    ma’lumotlari natijalariga ko’ra 60% ga yaqin foydalanuvchilar qidiruv 
    natijalarining birinchi sahifasi bilan va 90% ga yaqini birinchi uchta sahifa bilan 
    chegaralanib qoladi. Bundan sayt promouting bo’yicha mutaxassislar uchun vazifa 
    kelib chiqadi – so’rovning qurilishidan qat’iy nazar Web-sayt sahifalari 
    qidiruvning birinchi 10-20 natijasida turishiga erishish kerak. 
    Hujjatlarni saralash asosiy matn mezonlari 23.1-jadvalda keltirilgan. 
    23.1-jadval. Hujjatlar saralashni matnli mezonlari 
    Mezonlar 
    Saralash mantiqi 
    So’z «og’irligi» 
    Hujjatda so’zni takrorlash chastotasi yuqori bo’lsa, 
    hujjatning darajasi yuqori bo’ladi 


    308 
    So’zlarning o’zaro vaziyati 
    Ibora yoki unga o’xshash so’zlarning to’liq 
    mosligini hisobini olb borish (masalan,so’zlarning 
    bir-biriga yaqinligi va tartibi) 
    Topilgan matnning hujjat 
    boshiga nisbatan holati 
    Hujjatning boshlanishiga axborot qanchalik yaqin 
    bo’lsa, uning mazmuni yuqori bo’ladi deb 
    hisoblanadi. 
    Ajratilgan fragmentlar va 
    sarlavhalarda so’rov 
    so’zlarining mavjudligi 
    Ajratilgan fragmentlarda qidirilayotgan matnlarni 
    topishning ahamiyati oddiy matndagiga nisbatan 
    yuqori hisoblanadi 
    Sahifa mavzusining so’rov 
    mavzusi bilan mosligi 
    So’rov matnida bo’lmagan, ammo so’rov 
    mavzusiga mos keluvchi so’zlarni qidiruvda 
    qo’llash 
    Domen nomi yoki fayli bilan 
    kalit so’zning mosligi 
    Qidiruv mashinalari sahifalarga qo’shimcha 
    «og’irlik» beradi, ularda domen yoki fayl nomi 
    kalit so’z bilan mos keladi. 
    Qidiruv so’rovlarining 
    katalog ta’rifi bilan mosligi 
    Agar qidiruv so’rovlarining so’zlari katalog ta’rifi 
    bilan mos bo’lsa, sayt yuqori reyting oladi. 
    Kam uchraydigan so’zlarning 
    ahamiyati 
    Qidiruv so’zlari hujjatda qancha kam uchrasa, 
    uning ahamiyati ortib boradi 
    Matn fragmentlarini baholash ahamiyatini G.Lun ishlab chiqqan. U matn 
    fragmentlarini quyidagi ifoda orqali baholashni taklif qilgan: 
    bu yerda: 
    V – fragment ahamiyati; 
    N
    k
    – ushbu fragmentda kalit so’zlarning soni; 
    N
    O
    – fragmentdagi so’zlarning umumiy soni. 
    Kalit so’zlarni aniqlash tizimi odatda statistik chastota tahlilini qo’llaydi 
    (V.Purto metodikasi). Agar: 

    – matnda turli so’zlar uchratydigan chastota; 

    – foydalilikning nisbiy qiymati (muhimlik); 

    – so’zlar chastotasi va ularning foydaliligi o’zaro nisbatini aniqlovchi 
    konstanta. 
    Shunda F (P) bog’liqligi quyidagi formula orqali aniqlanadi: 


    309 
    Berilgan holat chastotaning ikki chegaraviy ahamiyati mavjudligini taxmin 
    qiladi: 

    quyi chegaradan kam chastotaga ega so’zlar juda kamyob hisoblanadi (hujjat 
    mazmunini aks ettirishga qodir emas); 

    bu ikki chegara orasidagi chastotaga ega so’zlar esa berilgan aniq hujjat 
    mazmunini ifodalaydi. 
    Havola kriteriyalariga asosan hujjat sitata olish indeksi hisobidan saralanadi. 
    Sitata olish indeksi – bu saytning Internetda mashhurligi ko’rsatkichi, 
    qidirilayotgan resursda boshqa saytlarga havolalarning soni va ahamiyati bilan 
    aniqlanadi. Saytga tashqi havolalarning umumiy soni sitatalash hisoblari uchun 
    kriteriyalar sifatida to’g’ri kelmaydi, chunki mashhur bo’lmagan resurslarga 
    havolalarning ahamiyati mashhur saytlar havolalari ahamiyatiga qaraganda juda 
    oz. 
    Sitatalash indeksini aniqlashda nafaqat saytga tashqi havolalar soni 
    e’tiborga olinadi, balki ma’lumotga havola etilgan o’z saytlarining sitatalash 
    indeksiga e’tibor beriladi. Umumiy holatda Web- sahifaga har bir to’g’ri havola 
    hajm bo’yicha sitatalashni ko’paytiradi, hajm havola qilinuvchi sahifaga 
    sitatalashga proporsional va aksi havola etilayotgan sahifada havolalar umumiy 
    soniga proporsional bo’ladi. 
    Yirik qidiruv mashinalarining qidiruv bazasida ulkan miqdordagi hujjatlar 
    saqlanadi. Tenglama tizimiga mos keluvchi matritsa siyraklashishiga qaramay, bu 
    tizimning miqdoriy yechimi ulkan hisoblash quvvatini talab qiladi. Shuning uchun 
    qidiruv tizimi hisoblash jarayonini ba’zi farazlarni kiritib maksimal darajada 
    soddalashtirishga harakat qilishi kerak. Mana shu PageRank klassik formulasini 
    amalga oshirishning aniq o’ziga xosliklari qidiruv mashinalarining kommersiya 
    sirini tashkil qiladi. 

    Download 11,41 Mb.
    1   ...   128   129   130   131   132   133   134   135   ...   209




    Download 11,41 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Kommunikasiyalarini rivojlantirish vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti

    Download 11,41 Mb.
    Pdf ko'rish