|
N-gramm – N-tokenli soʻzlar qatoridir: 2 gramm (odatda
bigramm Pdf ko'rish
|
bet | 10/16 | Sana | 11.12.2023 | Hajmi | 379,37 Kb. | | #116133 |
Bog'liq b.elov n.xudayberganov z.xusainova til va madaniyatN-gramm – N-tokenli soʻzlar qatoridir: 2 gramm (odatda
bigramm deb ataladi) ikki soʻzdan iborat “juda yaxshi”, “yaxshi
emas” yoki “sizning vazifangiz” va 3-gramm (koʻpincha trigramm
deb ataladi) – “bu mumkin emas” yoki “shahar markazidagi uylar”
kabi soʻzlar trigrammni anglatadi.
Masalan, oldingi misoldagi birinchi gapga mos bigrammalar
(“Bu mahsulot narxi arzon emas”):
“Bu mahsulot”
“mahsulot narxi”
“narxi arzon”
“arzon emas”
Yuqoridagi misolda oddiy (bitta) soʻzlarni ishlatish oʻrniga,
yuqorida koʻrsatilganidek, bigrammlardan (bag-of-bigrams)
foydalanamiz. Yaratilgan model asosida 1-gap va 2-gaplar oʻzaro
farqlanadi. Shunday qilib, bigrammlardan foydalanish tokenlarni
yanada tushunarli koʻrinishga olib keladi. Xulosa sifatida bigrammlar
jamlanmasi soʻzlardan koʻra kuchliroqdir va koʻp hollarda ushbu
usuldan foydalanishni tavsiya qilamiz.
Tf-Idf usuli
Yuqorida qoʻllaniladigan baholash usulida har bir soʻzning
statistikasi aniqlanib, vektordagi soʻz soni boʻyicha ifodalandi. Hosil
qilingan vektordan hujjatlar haqida ma’lumot olishda foydalanib
boʻlmaydi. Agar biror soʻz hujjatda koʻp marta uchrasa, bu soʻzning
hujjat mazmunida muhimligini yoki aktualligini anglatmaydi [Yadav,
Borgohain, 2015; Stecanella, 2019.]
Oʻzbek tilidagi juda koʻp matnlarda “bilan”, “va”, “balki” va
shunga oʻxshash soʻzlar juda koʻp ishlatiladi. Shu sababli ushbu
soʻzga mos ball qiymatini kamaytirish lozim. Bu yondashuv term
frequency-inverse document frequency yoki qisqacha Tf-Idf deb
nomlanadi. TF-IDF usuli yordamida soʻzning berilgan hujjatda
qanchalik muhimligi aniqlanadi. Hujjatga mos Tf-Idf qiymat
Tabiiy tilni qayta ishlashda bag of words algoritmidan foydalanish
|
| |