39
namunasi bo‘lib, turli janrlarda yozilgan 500 dan ortiq matndan 1 million ta
so‘zlar to‘plamini o‘z ichiga oladi. Bu korpusbirinchi
turkumlarga ajratishda
dastlabki tadqiqotlardan biri hisoblanadi. Unda 87 ta ajratilgan to‘plam
berilgan. Keyinchalik 45 ta ajratilgan to‘plamga ega Penn Treebank korpusi
(Marcus, 1993), Britaniya Milliy Korpusi (British
National Corpus, 1997)
kabi so‘z turkumlariga ajratishdagi to‘plamlar berilgan. Quyida 45 ta ajratilgan
to‘plamga ega Penn Treebank korpusi beriladi.
Ba’zi turkumlarga ajratishdagi
farqlar inson uchun ham, mashina uchun
ham murakkabdir. Masalan, predloglar, yordamchi so‘zlar,
ravishlar katta
o‘xshashlikka ega. Masalan,
around
so‘zi yuqorida sanalgan uchta vazifada
ham kelishi mumkin:
1.
Mrs. Shafaer never got