35
Uzbekistan: Language and Culture.
Applied philology
2022/2(5)
ISSN 2181-922X 35
—50
TABIIY TILNI QAYTA ISHLASH (NLP)
Tabiiy tilni qayta ishlashda bag of words
algoritmidan foydalanish
Botir Elov
1
Nizomaddin Xudayberganov
2
Zilola Xusainova
3
Annotatsiya:
Soʻzlar sumkasi modeli - mashinali oʻrganish algoritmlari
tomonidan qayta ishlash lozim boʻlgan matnning raqamli koʻrinishi. Bag
Of Words (BoW) modellashtirish algoritmidan foydalanib, matnni raqamli
matritsalarga aylantirish va qayta ishlash mumkin. Soʻzlar sumkasi (BoW) -
soʻzning hujjatdagi statistikasini hisoblaydigan algoritm. BoW algoritmidan
hujjatlarni oʻzaro solishtirish, qidiruv tizimlarida ma’lumotlarni izlash,
hujjatlarni tasniflash va tematik modellashtirish kabi NLP ilovalarida
foydalaniladi. Ushbu maqolada oʻzbek tilidagi matnlarni BoW alrgoritmi
vositasida raqamli shaklga oʻtkazish usullari tahlil qilinadi.
Kalit soʻzlar: BoW, Bag of words, soʻzlar jamlanmasi, soʻz vektori,
token, BoW algoritmi, TF-IDF usuli.
Kirish
Soʻzlar jamlanmasi (“sumkasi”)
(Bag of words,
BoW) - bu
tabiiy tilni qayta ishlashda matnni modellashtirish (raqamlashtirish)
usuli. Ushbu maqolada BoW algoritmining (usuli) qoʻllanilish
1
Elov Botir Boltayevich – texnika fanlari bo‘yicha falsafa doktori (PhD), dotsent.
Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti
Kompyuter lingvistikasi va raqamli texnologiyalar kafedrasi mudiri.
E-pochta: elov@navoiy-uni.uz
ORCID: 0000-0001-5032-6648
2
Xudayberganov Nizomaddin Uktamboy oʻgʻli – Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti universiteti Kompyuter lingvistikasi va raqamli
texnologiyalar kafedrasi o‘qituvchisi.