2.2.2 TF-IDF
Ekstraktiv umumlashtirish bilan solishtirganda, mavhum xulosalash nimaga yaqinroq
eng muhim jumlalar. Keyinchalik bu jumlalar xulosani yaratish uchun ishlatiladi.
hujjatdagi so'zning chastotasini (termin chastotasi) hisoblab chiqadi va uni ko'paytiradi
hujjatdagi so'zning dolzarbligi (Ramos va Xuan, 2003). Asosiy algoritm
hujjatlashtiring va hujjatni qisqaroq matnga aylantiring, shu bilan birga asosiy fikrlarni (Dalal va
odamlar odatda matnni umumlashtirishdan kutishadi. Jarayon asl nusxani tushunishdir
Term Frequency-Inverse Document Frequency (TF-IDF) ni aniqlash uchun ishlatiladi
ma'lumotlar to'plamidagi hujjatlar (teskari hujjat chastotasi). Har bir so'zning dolzarbligidan foydalanib, bitta
Algoritm shuki, parchadagi boshqa jumlalarga o'xshash gap, ehtimol
abstraksiya.
Ushbu so'zni o'z ichiga olgan hujjatlar sonining umumiy soniga nisbatan logarifmik funktsiyasi
Ushbu bo'lim matn uchun ishlab chiqilgan modellarni tushunish uchun zarur bo'lgan asosiy tushunchalarni taqdim etadi
Malik, 2013). Matnni abstraktsiya qilish birinchi navbatda sun'iy neyron tarmoqlar tushunchasi yordamida amalga oshiriladi.
muhim jumlalar, bu jumlalar keyinchalik hujjatning qisqacha mazmunini shakllantirish uchun ishlatilishi mumkin.
Barcha o'xshash jumlalar bilan bog'lang va topish uchun Google-ning PageRank algoritmini ishlating
4
parchadagi eng muhim jumla. Ushbu fikrdan foydalanib, jumlalar grafigini yaratish mumkin
har bir jumlaning tegishliligini hisoblashi mumkin. Ko'pchilik tegishli jumlalar eng ko'p deb faraz qiling