|
Korpus lingvistikasi book · October 022 citation reads 1,207 authorBog'liq AbjalovaM.KorpLing.Uslubiyqollanma (1)Manzura Abjalova
~ 58 ~
● qadimgi rus: http://ruscorpora.ru/search-old_rus.html (5500 ming
birlik);
●
qayin
po'stlog'i
yozuvlari:
http://ruscorpora.ru/search-
birchbark.html (hajmi taxminan 20 ming birlik).
Korpuslarning hajmi tez sur’atlar bilan o‘sib bormoqda, shuning
uchun siz ushbu satrlarni o‘qiyotganingizda u yerda yangi matnlar paydo
bo‘lishi aniq. Ba’zi cheklovlarga ega bo'lgan tarixiy korpusda qidiruvni
amalga oshirish asosiy korpusga o‘xshaydi: u boy metama’lumotlar,
lemmalar, morfologik xususiyatlarga ega.
Asosiy korpusdagi barcha matnlar morfologik izohlar va
metarazmetkaga ega.
Rus tili uchun morfologik izohlar avtomatik morfologik tahlilning
maxsus dasturlari yordamida amalga oshiriladi. Koʻpgina matnlar uchun
bu jarayon korpus uchun moʻljallangan MyStem tizimi orqali amalga
oshiriladi. Matnlarda uchraydigan, ammo ushbu analizator tomonidan
tanimaydigan bir qator chastotali soʻz shakllari (shu jumladan, arxaik,
mahalliy va boshqalar) roʻyxat asosida berilgan individual tahlilni talab
qiladi. Bir qator eskirgan morfologik variantlar uchun analizator
avtomatik qoidalar bilan toʻldirilgan. Eski imlodagi matnlar ham
avtomatik ravishda tahlil qilinadi (lekin lemmalar yangi imloda
berilgan). Matnni morfologik izohlashning umumiy tamoyillari 2002-
2004-yillarda V.A.Plungyan tomonidan G.I.Kustova, A.E.Polyakov va
D.V.Sichinava ishtirokida ishlab chiqilgan.
Asosiy korpusning kichik qismida omonimiya qoʻlbola aniqlangan
(6 million soʻzshakl) va DiaLing avtomatik morfologik tahlil dasturi
natijalari tahrir qilingan. Ushbu qism omonimiyani bartaraf etish deb
ataladigan korpusni tashkil qiladi, bu turli xil qidiruv dasturlarini sinash,
morfologik tahlil qilish va matnlarni avtomatik qayta ishlash,
shuningdek, qidiruvning aniqligini oshirishni talab qiladigan zamonaviy
rus morfologiyasini oʻrganish uchun qulay sinov maydonchasi boʻlib
xizmat qilishi mumkin. Bunday spetsifik holatlarga
[омонимия
снята]
(omonimlik bartaraf etilgan) eslatmasi berilgan. Omonimiyasi
bartaraf
etilgan
morfologik
izohlash
ishlarida
2000-yillarda
|
| |