Botir ELOV, Nizomaddin XUDAYBERGANOV, Zilola XUSAINOVA
36
sohasi, konseptsiyasi haqida fikr-mulohaza yuritiladi va oʻzbek
tilidagi matnlar uchun Python tilidagi tatbigʻi keltiriladi.
Axborot
tizimlaridagi katta hajmdagi matnli ma’lumotlarni NLP vositalari
yordamida qayta ishlash orqali muhim qarorlar qabul qilinadi.
Ushbu
katta hajmdagi ma’lumotlarni
tushunish va muayyan
qarorlarni qabul
qilish uchun ularni
raqamli shaklga olib kelish kerak [Rudkowsky,
Haselmayer, Wastian, Jenny, Emrich, Sedlmair, 2018, 141; Zhang, Jin,
Zhou, 2010, 44]. Tabiiy tilni qayta ishlash
vositalari usbu vazifani
amalga oshirishga yordam beradi.
BoW algoritmi yordamida matnli ma’lumotlardan zarur
xususiyatlar ajratib olinadi. Ushbu
yondashuv hujjatlardan
xususiyatlarni olishning
oddiy va moslashuvchan usulidir. BoW - bu
hujjatdagi soʻzlarning paydo boʻlishini tavsiflovchi matnning raqamli
koʻrinishi. BoW usulida faqat matndagi soʻzlar soni (statistikasi)
aniqlanadi. Biroq grammatik tafsilotlar va soʻz tartibi e’tiborsiz
qoldiriladi. Usulning soʻzlar “sumkasi”
deb atalishi hujjatdagi
soʻzlarning
tartibi yoki tuzilishi haqidagi har qanday ma’lumotning
tashlab yuborilishiga asoslangan [Yan, Li, Gu, Yang, 2020, 82642].
Matn bilan bogʻliq eng katta muammolardan biri shundaki,
uning tartibsiz va strukturlanmaganligida. Mashinali oʻrganish
algoritmlari esa sturkturlangan va aniq belgilangan qat’iy uzunlikdagi
ma’lumotlarni qayta ishlashga asoslangan.
BoW algoritmidan
foydalanib, oʻzgaruvchan uzunlikdagi matnlarni fiksirlangan
uzunlikdagi matn (
vektor)ga aylantiriladi [Rudkowsky, Haselmayer,
Wastian, Jenny, Emrich, Sedlmair, 2018,143; Yan D., Li K., Gu S., Yang
L, 2020, 82645; Qiu D., Jiang H., Chen S., 2020, 6]. Mashinali oʻrganish
modellarida raqamlashtirilmagan matnli ma’lumotlar qayta
ishlanmaydi. Shu sababli, matnlarni raqamli koʻrinishga olib kelish
lozim. BoW algoritmidan foydalanib,
matnga ekvivalent raqamlar
vektori hosil qilinadi. BoW usuli orqali matnni vektorga aylantirish
jarayonini oʻzbek tilidagi gaplar misolida koʻrib chiqamiz: