308
So’zlarning o’zaro vaziyati
Ibora yoki unga o’xshash so’zlarning to’liq
mosligini hisobini olb borish (masalan,so’zlarning
bir-biriga yaqinligi va tartibi)
Topilgan matnning hujjat
boshiga nisbatan holati
Hujjatning boshlanishiga
axborot qanchalik yaqin
bo’lsa, uning mazmuni yuqori bo’ladi deb
hisoblanadi.
Ajratilgan fragmentlar va
sarlavhalarda so’rov
so’zlarining mavjudligi
Ajratilgan fragmentlarda qidirilayotgan matnlarni
topishning ahamiyati oddiy matndagiga nisbatan
yuqori hisoblanadi
Sahifa mavzusining so’rov
mavzusi bilan mosligi
So’rov matnida bo’lmagan, ammo so’rov
mavzusiga mos keluvchi so’zlarni qidiruvda
qo’llash
Domen nomi yoki fayli bilan
kalit so’zning mosligi
Qidiruv mashinalari sahifalarga qo’shimcha
«og’irlik» beradi, ularda domen yoki fayl nomi
kalit so’z bilan mos keladi.
Qidiruv so’rovlarining
katalog ta’rifi bilan mosligi
Agar qidiruv so’rovlarining so’zlari katalog ta’rifi
bilan mos bo’lsa, sayt yuqori reyting oladi.
Kam uchraydigan so’zlarning
ahamiyati
Qidiruv so’zlari hujjatda qancha kam uchrasa,
uning ahamiyati ortib boradi
Matn fragmentlarini baholash ahamiyatini G.Lun ishlab chiqqan. U matn
fragmentlarini quyidagi ifoda orqali baholashni taklif qilgan:
bu yerda:
V – fragment ahamiyati;
N
k
– ushbu fragmentda kalit so’zlarning soni;
N
O
– fragmentdagi so’zlarning umumiy soni.
Kalit so’zlarni aniqlash tizimi odatda statistik chastota tahlilini qo’llaydi
(V.Purto metodikasi). Agar:
F
– matnda turli so’zlar
uchratydigan chastota;
P
– foydalilikning nisbiy qiymati (muhimlik);
C
– so’zlar chastotasi va ularning foydaliligi o’zaro nisbatini aniqlovchi
konstanta.
Shunda F (P) bog’liqligi quyidagi formula orqali aniqlanadi:
309
Berilgan holat chastotaning ikki chegaraviy ahamiyati mavjudligini taxmin
qiladi:
quyi chegaradan kam chastotaga ega so’zlar juda kamyob hisoblanadi (hujjat
mazmunini aks ettirishga qodir emas);
bu ikki chegara orasidagi chastotaga ega so’zlar esa berilgan aniq hujjat
mazmunini ifodalaydi.
Havola kriteriyalariga asosan hujjat sitata olish indeksi hisobidan saralanadi.
Sitata olish indeksi – bu saytning Internetda mashhurligi ko’rsatkichi,
qidirilayotgan resursda boshqa saytlarga havolalarning
soni va ahamiyati bilan
aniqlanadi. Saytga tashqi havolalarning umumiy soni sitatalash hisoblari uchun
kriteriyalar sifatida to’g’ri kelmaydi, chunki mashhur bo’lmagan resurslarga
havolalarning ahamiyati mashhur saytlar havolalari
ahamiyatiga qaraganda juda
oz.
Sitatalash indeksini aniqlashda nafaqat saytga tashqi havolalar soni
e’tiborga olinadi, balki ma’lumotga havola etilgan o’z saytlarining sitatalash
indeksiga e’tibor beriladi. Umumiy holatda Web- sahifaga har bir to’g’ri havola
hajm bo’yicha sitatalashni ko’paytiradi, hajm
havola qilinuvchi sahifaga
sitatalashga proporsional va aksi havola etilayotgan sahifada havolalar umumiy
soniga proporsional bo’ladi.
Yirik qidiruv mashinalarining qidiruv bazasida ulkan miqdordagi hujjatlar
saqlanadi. Tenglama tizimiga mos keluvchi matritsa siyraklashishiga qaramay, bu
tizimning miqdoriy yechimi ulkan hisoblash quvvatini talab qiladi. Shuning uchun
qidiruv tizimi hisoblash jarayonini ba’zi farazlarni kiritib maksimal darajada
soddalashtirishga harakat qilishi kerak. Mana shu PageRank
klassik formulasini
amalga oshirishning aniq o’ziga xosliklari qidiruv mashinalarining kommersiya
sirini tashkil qiladi.