• E-pochta
  • E-pochta: nizomaddin@navoiy-uni.uz  ORCID




    Download 379,37 Kb.
    Pdf ko'rish
    bet4/16
    Sana11.12.2023
    Hajmi379,37 Kb.
    #116133
    1   2   3   4   5   6   7   8   9   ...   16
    Bog'liq
    b.elov n.xudayberganov z.xusainova til va madaniyat

    E-pochta: nizomaddin@navoiy-uni.uz 
    ORCID: 0000-0002-6213-3015
    3Xusainova Zilola Yuldashevna – Alisher Navoiy nomidagi Toshkent davlat o‘zbek 
    tili va adabiyoti universiteti Kompyuter lingvistikasi va raqamli texnologiyalar 
    kafedrasi o‘qituvchisi.
    E-pochta: xusainovazilola@navoiy-uni.uz 
    ORCID: 0000-0003-4357-7515
    Iqtibos uchun: Elov B., Xudayberganov N., Husainova Z. 2022. “Tabiiy tilni qayta 
    ishlashda bag of words alogoritmidan foydalanish”. O‘zbekiston: til va madaniyat. 
    Amaliy filologiya. 2 (5): 35-50.


    Botir ELOV, Nizomaddin XUDAYBERGANOV, Zilola XUSAINOVA 
    36
    sohasi, konseptsiyasi haqida fikr-mulohaza yuritiladi va oʻzbek 
    tilidagi matnlar uchun Python tilidagi tatbigʻi keltiriladi. Axborot 
    tizimlaridagi katta hajmdagi matnli ma’lumotlarni NLP vositalari 
    yordamida qayta ishlash orqali muhim qarorlar qabul qilinadi. Ushbu 
    katta hajmdagi ma’lumotlarni tushunish va muayyan qarorlarni qabul 
    qilish uchun ularni raqamli shaklga olib kelish kerak [Rudkowsky, 
    Haselmayer, Wastian, Jenny, Emrich, Sedlmair, 2018, 141; Zhang, Jin, 
    Zhou, 2010, 44]. Tabiiy tilni qayta ishlash vositalari usbu vazifani 
    amalga oshirishga yordam beradi.
    BoW algoritmi yordamida matnli ma’lumotlardan zarur 
    xususiyatlar ajratib olinadi. Ushbu yondashuv hujjatlardan 
    xususiyatlarni olishning oddiy va moslashuvchan usulidir. BoW - bu 
    hujjatdagi soʻzlarning paydo boʻlishini tavsiflovchi matnning raqamli 
    koʻrinishi. BoW usulida faqat matndagi soʻzlar soni (statistikasi) 
    aniqlanadi. Biroq grammatik tafsilotlar va soʻz tartibi e’tiborsiz 
    qoldiriladi. Usulning soʻzlar “sumkasi” deb atalishi hujjatdagi 
    soʻzlarning tartibi yoki tuzilishi haqidagi har qanday ma’lumotning 
    tashlab yuborilishiga asoslangan [Yan, Li, Gu, Yang, 2020, 82642]. 
    Matn bilan bogʻliq eng katta muammolardan biri shundaki, 
    uning tartibsiz va strukturlanmaganligida. Mashinali oʻrganish 
    algoritmlari esa sturkturlangan va aniq belgilangan qat’iy uzunlikdagi 
    ma’lumotlarni qayta ishlashga asoslangan. BoW algoritmidan 
    foydalanib, oʻzgaruvchan uzunlikdagi matnlarni fiksirlangan 
    uzunlikdagi matn (vektor)ga aylantiriladi [Rudkowsky, Haselmayer, 
    Wastian, Jenny, Emrich, Sedlmair, 2018,143; Yan D., Li K., Gu S., Yang 
    L, 2020, 82645; Qiu D., Jiang H., Chen S., 2020, 6]. Mashinali oʻrganish 
    modellarida raqamlashtirilmagan matnli ma’lumotlar qayta 
    ishlanmaydi. Shu sababli, matnlarni raqamli koʻrinishga olib kelish 
    lozim. BoW algoritmidan foydalanib, matnga ekvivalent raqamlar 
    vektori hosil qilinadi. BoW usuli orqali matnni vektorga aylantirish 
    jarayonini oʻzbek tilidagi gaplar misolida koʻrib chiqamiz:

    Download 379,37 Kb.
    1   2   3   4   5   6   7   8   9   ...   16




    Download 379,37 Kb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    E-pochta: nizomaddin@navoiy-uni.uz  ORCID

    Download 379,37 Kb.
    Pdf ko'rish