|
TF-IDF qiymatni hisoblash bosqichlariBog'liq Kurs ishi Ismatov ITF-IDF qiymatni hisoblash bosqichlari.
TF-IDF usuli ikkita statistik ko‘rsatkichni o‘zaro ko‘paytirish orqali
aniqlanadi:
So‘zlar chastotasi (Term Frequency, TF):
so‘zning hujjatda necha
marta uchrashi;
hujjatning teskari chastotasi (Inverse Document Frequency, IDF):
hujjatlar to‘plamidagi so‘zning teskari chastotasi. Ushbu chastota orqali
aniqlangan qiymatlarga ko‘ra unikal so‘zlar yuqori ballga, ko‘p qo‘llaniladigan
so‘zlar past ballga ega bo‘ladi.
Hujjatdagi so‘zning chastotasi
. Ushbu chastotani hisoblashning bir necha
usullari mavjud. Eng oddiy usulda hujjatda so‘z paydo bo‘lgan holatlarni aniqlash
hisoblanadi.
Shuningdek, hujjat uzunligi yoki hujjatdagi ko‘p uchraydigan so‘zning
dastlabki chastotasi bo‘yicha chastotani sozlash usullari ham mavjud [Stecanella,
2019; Cahyani, Patasik, 2021; Pietro, 2020].
Hujjatning teskari chastotasi.
Korpusdagi hujjatlar to‘plamida so‘z
qanchalik keng tarqalgan yoki kamdan-kam uchrashini anglatadi [Stecanella,
2019; Qaiser, Ali, 2018; Ahmed, Ali, Hussain, Baseer, Ahmed, 2021].
TF-IDF usulidan
ma’lumot olish
(information retrieval)
[Carneiro, Novais,
Neves, 2014; Azad, Deepak, 2019],
matn tahlili (text analysis)
[Kharis, Laksono,
Suhartono, Ridwan,
Mintowati, Yuniseffendri, 2022]
,
kalit so‘zlarni ajratib olish (keyword
extraction) va mashinali o‘rganish algoritmlari (machine learning algorithms)
[Razno, 2019] uchun matndan raqamli xususiyatlarni ajratib olish kabi NLP
vazifalarida foydalaniladi. TF-IDF usuli orqali korpus matnlarini tahlil qilish
bosqichlari quyidagi 1-rasmda keltirilgan:
|
| |