39
namunasi bo‘lib, turli janrlarda yozilgan 500 dan ortiq matndan 1 million ta
so‘zlar to‘plamini o‘z ichiga oladi. Bu korpusbirinchi turkumlarga ajratishda
dastlabki tadqiqotlardan biri hisoblanadi. Unda 87 ta ajratilgan to‘plam
berilgan. Keyinchalik 45 ta ajratilgan to‘plamga ega Penn Treebank korpusi
(Marcus, 1993), Britaniya Milliy Korpusi (British National Corpus, 1997)
kabi so‘z turkumlariga ajratishdagi to‘plamlar berilgan. Quyida 45 ta ajratilgan
to‘plamga ega Penn Treebank korpusi beriladi.
Ba’zi turkumlarga ajratishdagi farqlar inson uchun ham, mashina uchun
ham murakkabdir. Masalan, predloglar, yordamchi so‘zlar, ravishlar katta
o‘xshashlikka ega. Masalan,
around
so‘zi yuqorida sanalgan uchta vazifada
ham kelishi mumkin:
1.
Mrs. Shafaer never got