81
ishlab chiqildi.
73
Masalan, Rus tilining Milliy
Korpusi hajmi hozirgi kunda
149 million so’zdan iborat. Keyingi yillarda internet tizimining rivojlanishi
virtual
matnlar korpusining yuzaga kelishiga olib keldi. Ya’ni internetdagi qidiriv
saytlari, elektron kutubxonalar, virtual ensiklopedialar
korpus vazifasini
bajarmoqda. Korpusning janri va tematik rang-barangligi internetdan
foydalanuvchining qiziqishlariga bog’liq. Masalan, ilm-fan doirasida
Wikipedia
katta hajmdagi matnlar korpusi sifatida foydalanilmoqda.
74
Korpus lingvistikasida parallel matnlar korpusi ham muhim ahamiyat kasb
etadi.
Parallel matnlar korpusi esa o’z navbatida badiiy asar, qo’llanma,
ommaviy axborot vositasi nashrlari, turli xil hujjatlarning ikki yoki undan ko’p
tillardagi elektron holdagi ko’rinishlaridir. Masalan, Yevropa Ittifoqi o’zining
barcha qonun va hujjatlarini ingliz, fransuz, nemis, ispan va
italyan tillarida nashr
qiladi hamda ular internet tizimiga barchaga ochiq arxiv sifatida qo’yiladi. Bunday
korpuslarning afzalligi shundaki, ular yordamida nafaqat biron bir so’z yoki
jumlaning, balki butun boshli matnlarning turli tillardagi variantlarini bilish
imkoniyati mavjud. Xuddi mana shu
imkoniyat tufayli maxsus konkordanser
dasturlar ishlab chiqish orqali turli xil ixtisoslik lug’atlari tuzish imkoniyati
tug’iladi. Ushbu imkoniyatlar kompyuter leksikografiyasi uchun ulkan ahamiyat
kasb etadi.
Kompyuter leksikografiyasiga semantik maydon,
semantik tarmoq,
semantik to’r hamda freym semantikasining faol tatbiq etilishi natijasida ulkan
kompyuter leksikografiya resurslari yaratildi. Shunday yirik leksikografik
resurslardan biri
FRAMENET bo’lib, u internet tizimida on-line rejimida
ishlaydi.
75
Mazkur tizim Ch.Fillmorning
“Tools for Lexicon Building” loyihasi
asosida
Kaliforniya shtati, Berkli shahridagi Xalqaro informatika institutida ishlab
chiqilgan. Framenet resursining ma’lumotlar bazasida 10000 ta leksik birlik
mavjud, undan 6000dan ortig’i to’liq annotatsiyaga ega. Bundan tashqari
ma’lumotlar bazasida 800ta semantik freym ko’rsatilgan, 135000 annotatsiyali
gaplar keltirilgan.
Elektron lug’atlar tuzish jarayonida ma’lumotlar ombori,
matnlar korpusini
yaratish, qidiruv tizimi, kodlash, lingvistik va dasturiy ta’minot unsurlari qatorida