• 2.1 Tabiiy tilni qayta ishlash 2.2 Matnni chiqarish
  • Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




    Download 2,7 Mb.
    Pdf ko'rish
    bet5/26
    Sana20.12.2023
    Hajmi2,7 Mb.
    #125027
    1   2   3   4   5   6   7   8   9   ...   26
    Bog'liq
    juniper-final (2)

    2.2.1 Textrank
    umumlashtirish bu sohada, chunki kompyuterlar odamlarda nima borligini tushunishlari kerak
    hujjatning qisqacha mazmuni.
    jumlalarni o'zgartirmasdan hujjat. Keyin, bu chiqarilgan jumlalar a hosil qilish uchun ishlatilishi mumkin
    modellar NLP bilan bog'liq muammolarni hal qilish uchun ham qo'llaniladi. Mavjud tadqiqotlar bilan, tadqiqotchilar
    Bo'limda birinchi navbatda matnni umumlashtirish uchun asosiy tushunchalar, so'ngra foydalanilgan ko'rsatkichlar muhokama qilinadi
    parchadan asosiy jumlalar (Mihalcea, Rada va Paul Tarau, 2004). Buning ortidagi fikr
    Textrank - bu Google-ning PageRank algoritmidan ilhomlangan algoritm bo'lib, uni aniqlashga yordam beradi.
    Ushbu bo'lim ushbu loyihada foydalanilgan texnologiyalarni o'rganadi (2.1 - 2.3-bo'lim).
    Intellekt (AI). Shuning uchun ko'plab mavjud AI algoritmlari va usullari, shu jumladan neyron tarmoq
    2.1 Tabiiy tilni qayta ishlash
    2.2 Matnni chiqarish
    Machine Translated by Google


    2.2.2 TF-IDF
    Ekstraktiv umumlashtirish bilan solishtirganda, mavhum xulosalash nimaga yaqinroq
    eng muhim jumlalar. Keyinchalik bu jumlalar xulosani yaratish uchun ishlatiladi.
    hujjatdagi so'zning chastotasini (termin chastotasi) hisoblab chiqadi va uni ko'paytiradi
    hujjatdagi so'zning dolzarbligi (Ramos va Xuan, 2003). Asosiy algoritm
    hujjatlashtiring va hujjatni qisqaroq matnga aylantiring, shu bilan birga asosiy fikrlarni (Dalal va
    odamlar odatda matnni umumlashtirishdan kutishadi. Jarayon asl nusxani tushunishdir
    Term Frequency-Inverse Document Frequency (TF-IDF) ni aniqlash uchun ishlatiladi
    ma'lumotlar to'plamidagi hujjatlar (teskari hujjat chastotasi). Har bir so'zning dolzarbligidan foydalanib, bitta
    Algoritm shuki, parchadagi boshqa jumlalarga o'xshash gap, ehtimol
    abstraksiya.
    Ushbu so'zni o'z ichiga olgan hujjatlar sonining umumiy soniga nisbatan logarifmik funktsiyasi
    Ushbu bo'lim matn uchun ishlab chiqilgan modellarni tushunish uchun zarur bo'lgan asosiy tushunchalarni taqdim etadi
    Malik, 2013). Matnni abstraktsiya qilish birinchi navbatda sun'iy neyron tarmoqlar tushunchasi yordamida amalga oshiriladi.
    muhim jumlalar, bu jumlalar keyinchalik hujjatning qisqacha mazmunini shakllantirish uchun ishlatilishi mumkin.
    Barcha o'xshash jumlalar bilan bog'lang va topish uchun Google-ning PageRank algoritmini ishlating
    4
    parchadagi eng muhim jumla. Ushbu fikrdan foydalanib, jumlalar grafigini yaratish mumkin
    har bir jumlaning tegishliligini hisoblashi mumkin. Ko'pchilik tegishli jumlalar eng ko'p deb faraz qiling

    Download 2,7 Mb.
    1   2   3   4   5   6   7   8   9   ...   26




    Download 2,7 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

    Download 2,7 Mb.
    Pdf ko'rish