[1,1,1,1,1,1,1,0] “Bu mahsulot narxi arzon emas” = [0,1,1,0,0,0,1,1] |
Sklearn yordamida BoWni ishlab chiqishBog'liq b.elov n.xudayberganov z.xusainova til va madaniyatBu sahifa navigatsiya:
- [1,1,1,1,1,1,1,0] “Bu mahsulot narxi arzon emas” = [0,1,1,0,0,0,1,1]
Sklearn yordamida BoWni ishlab chiqish.
Yuqoridagi BoW modelini Python yordamida osongina
amalga oshirish uchun Sklearn kutubxonasidagi Count Vectorizer
() funksiyasidan foydalanish mumkin.
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer,
TfidfVectorizer
sentence_1=”Adirlar ham bahorda lola bilan gozal , chunki
Tabiiy tilni qayta ishlashda bag of words algoritmidan foydalanish
43
lola - bahorning erka guli”
sentence_2=”Lola ham shifokor”
# ngram_range=(2,2) bigramlardan foydalanish
CountVec = CountVectorizer(ngram_range=(1,1), stop_
words=[“ham”,”bilan”,”chunki”])
# transformmatsiya
Count_data = CountVec.fit_
transform([sentence_1,sentence_2])
# dataframeni shakllantirish
cv_dataframe=pd.DataFrame(Count_data.
toarray(),columns=CountVec.get_feature_names())
print(cv_dataframe)
____________________
adirlar bahorda bahorning erka go‘zal guli kasbini lola
shifokorlik tanladi
1 1
1 1 1 1 1 0
2 0 0
2 0
0 0 0 0 0 1 1
1 1
N-gramlar
1.
N-gramlar nima va ulardan nima maqsadda
foydalaniladi? Quyidagi misollarni koʻrib chiqamiz [Elov, 2022, 62;
Yadav, Borgohain, 2015, 1771]:
1-gap: “Bu uylar narxi arzon, lekin ular shahar markaziga
yaqin emas”
2-gap: “Bu mahsulot narxi arzon emas”
Ushbu misol uchun faqat 8 ta soʻzdan iborat lugʻatni
shakllantiramiz:
uylar
narxi
arzon
shahar
markaziga
yaqin
emas
44
Botir ELOV, Nizomaddin XUDAYBERGANOV, Zilola XUSAINOVA
mahsulot
Shunday qilib, ushbu gaplar uchun mos vektorlar:
“Bu uylar narxi arzon, lekin ular shahar markaziga yaqin
emas” = [1,1,1,1,1,1,1,0]
“Bu mahsulot narxi arzon emas” = [0,1,1,0,0,0,1,1]
Yuqorida hosil qilingan natijalarda qanday muammo mavjud?
2-gap salbiy, 1-gap esa ijobiy ma’noga ega. Yuqorida
shakllantirilgan vektorlarda ushbu ma’lumot aks etmagan. Ushbu
muammoni hal qilish uchun N-grammlarni aniqlab olish lozim.
|
| |