TF-IDF qiymatni hisoblash bosqichlari




Download 1,02 Mb.
Pdf ko'rish
bet2/9
Sana04.06.2024
Hajmi1,02 Mb.
#259904
1   2   3   4   5   6   7   8   9
Bog'liq
Kurs ishi Ismatov I

TF-IDF qiymatni hisoblash bosqichlari. 
TF-IDF usuli ikkita statistik ko‘rsatkichni o‘zaro ko‘paytirish orqali 
aniqlanadi:
So‘zlar chastotasi (Term Frequency, TF):
 
so‘zning hujjatda necha 
marta uchrashi;
 
 
hujjatning teskari chastotasi (Inverse Document Frequency, IDF):
 
hujjatlar to‘plamidagi so‘zning teskari chastotasi. Ushbu chastota orqali 
aniqlangan qiymatlarga ko‘ra unikal so‘zlar yuqori ballga, ko‘p qo‘llaniladigan 
so‘zlar past ballga ega bo‘ladi. 
 
Hujjatdagi so‘zning chastotasi
. Ushbu chastotani hisoblashning bir necha 
usullari mavjud. Eng oddiy usulda hujjatda so‘z paydo bo‘lgan holatlarni aniqlash 
hisoblanadi.
Shuningdek, hujjat uzunligi yoki hujjatdagi ko‘p uchraydigan so‘zning 
dastlabki chastotasi bo‘yicha chastotani sozlash usullari ham mavjud [Stecanella, 
2019; Cahyani, Patasik, 2021; Pietro, 2020].
Hujjatning teskari chastotasi.
Korpusdagi hujjatlar to‘plamida so‘z 
qanchalik keng tarqalgan yoki kamdan-kam uchrashini anglatadi [Stecanella, 
2019; Qaiser, Ali, 2018; Ahmed, Ali, Hussain, Baseer, Ahmed, 2021].
TF-IDF usulidan 
ma’lumot olish
(information retrieval) 
[Carneiro, Novais, 
Neves, 2014; Azad, Deepak, 2019], 
matn tahlili (text analysis) 
[Kharis, Laksono, 
Suhartono, Ridwan,
Mintowati, Yuniseffendri, 2022]
,
kalit so‘zlarni ajratib olish (keyword 
extraction) va mashinali o‘rganish algoritmlari (machine learning algorithms) 
[Razno, 2019] uchun matndan raqamli xususiyatlarni ajratib olish kabi NLP 
vazifalarida foydalaniladi. TF-IDF usuli orqali korpus matnlarini tahlil qilish 
bosqichlari quyidagi 1-rasmda keltirilgan: 



Download 1,02 Mb.
1   2   3   4   5   6   7   8   9




Download 1,02 Mb.
Pdf ko'rish