|
Korpus lingvistikasi book · October 022 citation reads 1,207 authorBog'liq AbjalovaM.KorpLing.Uslubiyqollanma (1)KORPUS LINGVISTIKASI
Manzura Abjalova
~ 27 ~
korpuslarni to‘ldirish zarurati tug‘ilganda esa, kiritiluvchi matnlar
sinchkovlik bilan saralab olinadi.
Aytish mumkinki, korpusning ko‘rimliligi va muvozanatlashtirilishi
korpusda matnlarning turli davrlar, janrlar, uslublar, mualliflar bo‘yicha
ma’lumotlarni, ya’ni til yoki subtilning barcha xususiyatlarini aks ettirish
imkoniyatini yetarli va mutanosib ravishda taqdim etadi. Ular korpus
materialidan olingan natijalarning ishonchliligini ta’minlaydilar.
Til korpuslarini yaratish bosqichlari:
1.
Manbalar ro‘yxati aniqlanadi.
2.
Matnlar raqamlashtiriladi, ya’ni mashina o‘qiydigan formatga
o‘tkaziladi.
3.
Matnga oldindan ishlov beriladi (filologik tekshirish va tuzatish;
matnning bibliografik va ekstralingvistik tavsifini tayyorlash).
4.
Konvertirlash va grafematik tahlil qilinadi.
5.
Matn lingvistik izohlanadi (tegging).
6.
Avtomatik izohlash natijalari tuzatiladi.
7.
Izohlangan matnlar axborot qidirish tizimi tuzilishiga o‘tkaziladi.
8.
Korpusga kirish ta’minlanadi.
6.
ANNOTATSIYA TURLARI: LINGVISTIK VA
EKSTRALINGVISTIK TEGLASH
Turli lingvistik topshiriq/amalni bajarish uchun matnga lingvistik va
ekstralingvistik qo‘shimcha ma’lumot bilan ishlov berilgan bo‘lishi
lozim. Buning uchun mavjud matnning komponentlariga maxsus izoh
(masalan, so‘z turkumi haqida ma’lumot) berilishi zarur hisoblanadi. Bu
izoh matn
tegi
(belgi, ishora) yoki
annotatsiyasi
(rus. razmetka) deb
ataladi. Matn birliklarini izohlash esa
annotatsiyalash, teglash
yoki
oddiygina,
lingvistik izohlash
(разметка, tagging, annotation) deyiladi.
Bunday ma’lumotlarning eng oddiy misoli – so‘z turkumlari tegi
hisoblanadi. Bu shunday ko‘rinishi mumkin:
Samiya xalqaro tanlovga
yaqinda boradi
Izohlaymiz:
Samiya
(ot)
xalqaro
(sifat)
tanlovga
(ot)
yaqinda
(ravish)
boradi
(fe’l)
.
|
| |