99
sanaladi. Semantik qidiruv hujjatlarlarning mazmuni asosida qidirish usuli bo’lib,
bunda hujjatning umumlashma mazmuni, sarlavhasi deskriptor ko’rinishida
shakllantirilishi lozim. Hujjatli qidiruv matnli ma’lumotlar hamda ular haqidagi
bibliografik qaydlarni qidirish jarayonidir. Faktografik qidiruv so’rovda nazarda
tutilgan ma’lumotga mos keluvchi faktlarni (matnli hujjatlar
tarkibidan ajratilgan
ma’lumotlar) qidirish jarayonidir. Yuqoridagilardan kelib chiqib aytish mumkinki,
qidiruv tizimi relyatsion ma’lumotlar bazasida hamda gipertekstli ma’lumotlar
bazasida mavjud bo’lgan hujjatlar, hujjatlar haqidagi metama’lumotlar, matnlar,
rasmlar, video va audiofayllarni qidirishni o’z ichiga oladi.
Informatsiyaning eksponensial tarzda ko’payib ketayotganligi, shuningdek,
internet tizimida ham kundan-kunga ma’lumotlar hajmining o’sib
borayotganligi
kompyuter lingvistikasi oldiga bir qator vazifalarni ko’ndalang qo’ymoqda:
qidiruv tizimining optimal modellarini yaratish;
hujjatlarni tasniflash (klassifikatorlar tizimini yaratish);
hujjatlarni klasterlash;
Foydalanuvchi interfeyslari va qidiruv tizimlari arxitekturasini
loyihalash;
Zaruriy
informatsiyani ajratib olish, hujjatlarni avtomatik referatlash va
annotatsiyalsh;
deskriptorli tillar va tezauruslarni mukammallashtirish, boyitish.
Saqlangan ma’lumotning hamda qidirish xususiyatiga ko’ra information
qidiruv tizimlari 2 katta guruhga bo’linadi: hujjatli va faktografik IQT.
Hujjatli
IQTlarda matn, tavsif va ta’riflar saqlanadi, faktografik IQTlar esa jadvallar,
formulalar, grafik ko’rinishidagi ma’lumotlarni o’z ichiga oladi. Shuningdek,
aralash tabiatli IQTlar ham mavjud bo’lib,
unda ham hujjatli, ham faktografik
ma’lumotlar saqlanadi. IQTda qidiruvni ta’minlash uchun maxsus information
qidiruv tillari mavjud. Informatsion qidiruv tillari bu formal til bo’lib, u IQTda
saqlangan hujjatlarning mazmunini tavsiflash va so’rov uchun mo’ljallangan.
Informatsion qidiruv tilida hujjatlarga
ishlov berish protsedurasi indekslash deb
ataladi. Indekslash natijasida har bir hujjatga IQTdagi ta’rif shakli yoziladi.
Mazkur ko’p bosqichli jarayonda deskriptorli informatsion qidiruv tillari
ishlatiladi. Hujjat mavzusi deskriptorlarning birlashuvi bilan yoziladi.
Deskriptorlar sifatida so’zlar, terminlar, muayyan sohadagi boshlang’ich
tushuncha va kategoriyalardan foydalaniladi. Deskriptorlarni kalit so’zlar deb
nomlash ham mumkin. Deskriptorli til bilan ishlaydigan tizimlardan biri M.Taube
tomonidan yaratilgan
UNITERM tizimidir. Bu tizimda
deskriptorlar sifatida
hujjatning kalit so’zlari – unitermlar ishlatiladi. Demak, muayyan sohaning
terminologiyasi, ya’ni deskriptorlar qidiruv tizimi va tezauruslarning asosini
tashkil etadi.
100
Matnning asosiy mazmun-mundarijasini aks ettiradigan kalit so’zlar,
terminlar, tayanch tushunchalar bazasi asosida kompyuterda lug’at tuziladi.
Bunday lug’at
informatsion qidiruv tezauruslari deb ataladi. Tezauruslar
ensiklopedik va izohli lug’atlardan farqli ravishda
til birliklarining matnda
qo’llanish chastotasi va matnning predmet mundarijasini aks ettirish darajasiga
qarab tuzilda. Bunda terminning mazmuniy tavsifi orqali bazadagi ma’lumotlar
qidirilishiga mo’ljallangan bo’ladi. Terminlar tezaurusga qat’iy semantik prinsiplar
asosida kiritiladi,
bunda ularning gipo-geperonimik (tur-jins), holo-meronik