• [1,1,1,1,1,1,1,0] “Bu mahsulot narxi arzon emas” = [0,1,1,0,0,0,1,1]
  • Sklearn yordamida BoWni ishlab chiqish




    Download 379,37 Kb.
    Pdf ko'rish
    bet9/16
    Sana11.12.2023
    Hajmi379,37 Kb.
    #116133
    1   ...   5   6   7   8   9   10   11   12   ...   16
    Bog'liq
    b.elov n.xudayberganov z.xusainova til va madaniyat

    Sklearn yordamida BoWni ishlab chiqish.
    Yuqoridagi BoW modelini Python yordamida osongina 
    amalga oshirish uchun Sklearn kutubxonasidagi Count Vectorizer 
    () funksiyasidan foydalanish mumkin.
    import pandas as pd
    from sklearn.feature_extraction.text import CountVectorizer, 
    TfidfVectorizer
    sentence_1=”Adirlar ham bahorda lola bilan gozal , chunki 


    Tabiiy tilni qayta ishlashda bag of words algoritmidan foydalanish
    43
    lola - bahorning erka guli”
    sentence_2=”Lola ham shifokor”
    # ngram_range=(2,2) bigramlardan foydalanish
    CountVec = CountVectorizer(ngram_range=(1,1), stop_
    words=[“ham”,”bilan”,”chunki”])
    # transformmatsiya
    Count_data = CountVec.fit_
    transform([sentence_1,sentence_2])
    # dataframeni shakllantirish
    cv_dataframe=pd.DataFrame(Count_data.
    toarray(),columns=CountVec.get_feature_names())
    print(cv_dataframe)
    ____________________
    adirlar bahorda bahorning erka go‘zal guli kasbini lola
    shifokorlik tanladi
    1 1
    1 1 1 1 1 0
    2 0 0
    2 0
    0 0 0 0 0 1 1
    1 1 
    N-gramlar
    1. 
    N-gramlar nima va ulardan nima maqsadda 
    foydalaniladi? Quyidagi misollarni koʻrib chiqamiz [Elov, 2022, 62; 
    Yadav, Borgohain, 2015, 1771]:
    1-gap: “Bu uylar narxi arzon, lekin ular shahar markaziga 
    yaqin emas”
    2-gap: “Bu mahsulot narxi arzon emas”
    Ushbu misol uchun faqat 8 ta soʻzdan iborat lugʻatni 
    shakllantiramiz:

    uylar

    narxi

    arzon

    shahar

    markaziga

    yaqin

    emas


    44
    Botir ELOV, Nizomaddin XUDAYBERGANOV, Zilola XUSAINOVA 

    mahsulot
    Shunday qilib, ushbu gaplar uchun mos vektorlar:
    “Bu uylar narxi arzon, lekin ular shahar markaziga yaqin 
    emas” = [1,1,1,1,1,1,1,0]
    “Bu mahsulot narxi arzon emas” = [0,1,1,0,0,0,1,1] 
    Yuqorida hosil qilingan natijalarda qanday muammo mavjud? 
    2-gap salbiy, 1-gap esa ijobiy ma’noga ega. Yuqorida 
    shakllantirilgan vektorlarda ushbu ma’lumot aks etmagan. Ushbu 
    muammoni hal qilish uchun N-grammlarni aniqlab olish lozim.

    Download 379,37 Kb.
    1   ...   5   6   7   8   9   10   11   12   ...   16




    Download 379,37 Kb.
    Pdf ko'rish