Matindagi so‘zlar chastatasini aniqlovchi algoritmlar
Reja:
1. Kirish:
2. TF-IDF qiymatni hisoblash bosqichlari
3. Foydalanuvchi so‘rovi (kalit so‘zlar) asosida korpusdagi matnlarni TF-
IDF usuli vositasida tartiblash.
4. Korpus matnlari uchun TF-IDF qiymatlarni hisoblash
5. Mashinali o‘rganishda
TF-IDFdan foydalanish
6. Xulosa
7. Fodalanilgan adabiyotlar
Kirish
TF-IDF
(Term Frequency-Inverse Document Frequency) – kalit so‘zning
berilgan hujjatlar to‘plamiga mosligini aniqlash usuli bo‘lib, TF-IDF qiymat
statistik ko‘rsatkich (baho) hisoblanadi [Stecanella, 2019]. J.Qin va Z.Zhoular
tomonidan TF-IDF usulidan foydalanib, xitoy tilidagi so‘zlarni
segmentatsiya
algoritmi ishlab chiqilgan [Qin, Zhou, Tan, Xiang, He, 2021]. Ular tomonidan
taklif qilingan algoritm yordamida ijtimoiy tarmoqdagi yangiliklar klasterlarga
ajratilib, yangiliklardagi aktual so‘zlar aniqlangan
va amalga oshirilgan
eksperimentlar asosida hozirgi kundagi dolzarb mavzularni samarali topish
imkoniyati taqdim etilgan. D. Cahyani va I. Patasik tomonidan berilgan matndagi
inson tuyg‘ularni tasniflash uchun TF-IDF va Word2Vec raqamli vektorlar
modellaridan foydalanilgan [Cahyani, Patasik, 2021; Pietro, 2020].
Shuningdek, tvit shaklidagi ma’lumotlarini tasniflash
ikki bosqichda SVM
(support vector machine) va MNB (Multinomial Naïve Bayes) usullaridan
foydalanib amalga oshirilgan. Birinchi bosqischda his-tuyg‘ularni o‘z ichiga
olgan yoki his-tuyg‘usiz ma’lumotlar aniqlangan.
Ikkinchi bosqichda his-
tuyg‘ularni o‘z ichiga olgan ma’lumotlar hissiyotlarning besh turiga, ya’ni baxtli,
g’azablangan, qayg’uli, qo‘rquv va hayratga ajratilgan. Ushbu tadqiqotda TF-IDF
bilan SVM, Word2Vec bilan SVM va TF-IDF bilan MNB metodlar qo‘llanilgan
va natijalar o‘zaro qiyosiy taqqoslangan. R. Qaiser va R. Ali tomonidan
korpusdagi hujjatlarga kalit so‘zlarning mosligini tekshirish muhokama qilingan
[Qaiser, Ali, 2018]. Ularning tadqiqotlari
TF-IDF algoritmini hujjatlar soni bo‘yicha qanday qo‘llash
mumkinligiga
qaratilgan.
Birinchidan, TF-IDFni amalga oshirish uchun amal qilish kerak bo‘lgan
bosqichlar ketma-ketligi ishlab chiqilgan. Ikkinchidan, TF-IDF algoritmi
natijalari tahlil qilingan va TD-IDF algoritmining
kuchli va zaif tomonlari
keltirilgan. Ijtimoiy tarmoqlar va Internet global miqyosda foydalanuvchilarning
o‘zaro yangiliklar, g‘oyalar va ma’lumotlarni bir
zumda almashish imkonini
berdi. B. Ahmed va G. Ali tomonidan olib borilgan tadqiqotlarda ijtimoiy
tarmoqlar va Internetdagi mish-mishlar yoki soxta xabarlarni aniqlash
algoritmlari ishlab chiqilgan va joriy etilgan [Ahmed, Ali, Hussain, Baseer,
Ahmed, 2021]. Ular tomonidan taqdim etilgan yondashuvga ko‘ra 3 ta xususiyatli
ekstraktorlardan foydalangan holda neyron
tarmoqlarga asoslanib soxta
yangiliklarni aniqlash modeli ishlab chiqilgan: TD-IDF, Glove va BERT.
Baholash uchun har bir xususiyat ekstraktori uchun bir nechta ko‘rsatkichlar,
ya’ni aniqlik, eslab qolish, AUC ROC va AUC PR qiymatlar hisoblab chiqilgan
va transformatsiya usullari chuqur o‘rganish modeliga joriy etilgan. TD-IDF usuli