• Ilova A: kengaytirilgan texnik shartlar
  • Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




    Download 2,7 Mb.
    Pdf ko'rish
    bet26/26
    Sana20.12.2023
    Hajmi2,7 Mb.
    #125027
    1   ...   18   19   20   21   22   23   24   25   26
    Bog'liq
    juniper-final (2)

    5.5 End-to-end ilovasi
    Machine Translated by Google


    23-rasm: Matnni oxirigacha umumlashtirish veb-ilovasining skrinshoti
    48
    Machine Translated by Google


    6.0 Xulosa
    hajmi oshib boradi. Har bir maqolada matn xulosasini qo'llash mijozni yaxshilashi mumkin
    modellar to'rtta o'xshash ma'lumotlar to'plami bo'yicha o'qitildi va undan foydalanib, uchidan uchiga veb-ilova qurildi
    modelning ish faoliyatini yaxshilash uchun. teglari bilan belgilangan kod parchalari edi
    inglizcha bo'lmagan so'zlar. Model tomonidan tanib bo'lmaydigan har qanday so'zlarni olib tashlash kerak
    asl hujjatlardagi fikrlar. Juniper Networks hali ham ko'plab katta ma'lumotlar to'plamlariga ega
    oltita LSTM qatlami: kodlovchida uchta qatlam, qolgan uchtasi dekoderda. Kompilyatsiya qilingan
    Juniper Networks tomonidan taqdim etilgan. Oldingi ishlardan ilhom olib, biz ikkita asbob yaratdik
    Biz ommaviy ma'lumotlar to'plamlari va ma'lumotlar to'plamlarida matnni umumlashtirish vositasini yaratish ustida ishladik
    jumlalar, ammo eng yaxshi natijalarga erishish uchun tanlangan ma'lumotlar to'plami modeli bilan chambarchas bog'liq bo'lgan kirish talab qilinadi.
    o'qitilgan modellar. Oxir-oqibat xulosalovchi har qanday kiritish uchun matnni umumlashtirishni amalga oshirishi mumkin
    tajriba va xodimlarning samaradorligi.
    TF-IDF va Textrank yordamida maqolalarni kiritish. Ekstraksiyani umumlashtirish vositasi qazib olishga imkon beradi
    model, modelni yanada yaxshilashning bir necha yo'li mavjud.
    49
    matnni umumlashtirish. Birinchi matnni umumlashtirish vositasi bo'yicha ekstraktiv xulosani amalga oshiradi
    Juniper ma'lumotlar to'plami bo'yicha xulosa. Garchi ba'zi ma'lumotlar to'plamlarida biz tomonidan yaratilgan yaxshi xulosalar mavjud edi
    Xulosa qilib aytganda, biz yaratgan vositalar matnni amalga oshirish imkoniyatlarini o'rganib chiqdi
    neyron tarmoqlari bilan mavhum xulosalash vositasi. Biz kodlovchi-dekoder modelini yaratdik
    kalitni ushlaydigan matnli hujjatlarning qisqacha mazmunini ko'rsatish orqali o'qish vaqtini qisqartirish
    ispancha so'zlarni o'z ichiga olgan maqolalar olib tashlandi, ammo boshqa maqolalar ham bo'lishi mumkin
    Birinchidan, biz ma'lumotlar to'plamlarini yanada tozalash mumkin deb o'ylaymiz. Ma'lumotlarni tozalash jarayonida biz
    asl maqolalardan istalgan miqdordagi asosiy jumlalar. Biz amalga oshirgan yana bir vosita
    Doimiy o'sib borayotgan matn ma'lumotlari bilan matnni umumlashtirish uchun imkoniyat bor ko'rinadi
    Machine Translated by Google


    Biz mavhum xulosa qilish uchun yaratgan model insoniyatni yaratishda yaxshi ish qildi.
    Biz foydalangan eng katta ma'lumotlar to'plamida atigi yigirma mingga yaqin maqola bor edi. Agar ushbu o'zgarishlar qo'llanilishi mumkin bo'lsa,
    kiritish matnida turli dasturlash tillari.
    (Nallapati, Chjou, Santos, Gulchehre, & Xiang 2016). Holbuki, cheklangan resurslar tufayli
    tadqiqot, biz e'tibor mexanizmini bajaradigan modelga maxsus qatlam qo'shishni taklif qilamiz
    kirish hujjatlaridagi barcha muhim ma'lumotlar. Bu muammoni hal qilish uchun, bizning asoslangan
    50
    modelning ishlashi yaxshilanishi mumkin deb o'ylaymiz.
    berilgan kirishlardan o'qilishi mumkin bo'lgan jumlalar. Biroq, u har doim ham xulosalarni yozishni yaratmagan
    umumlashtirish.
    maqolalardan olib tashlangan, lekin matn qismida boshqa kod bo'laklari bo'lishi mumkin
    (Lopyrev, 2015). Diqqat mexanizmi mavhumlik kabi vazifalarda foydali ekanligi isbotlangan
    yaxshi natijalarga erishish uchun o'z matnlarini umumlashtirish modellarini millionlab hujjatlarga o'rgatdi
    salbiy tarzda ishlash. Yozilgan kodni aniqlash usullarini ko'rib chiqishni tavsiya etamiz
    teglaridan tashqari maqolalar. Kirish ma'lumotlar to'plamida bunday bo'laklarga ega bo'lish modelga ta'sir qiladi
    Nihoyat, biz modellarni o'rgatish uchun kattaroq ma'lumotlar to'plamidan foydalanishni taklif qilamiz. O'tmishdagi tadqiqotchilar
    Machine Translated by Google


    Malumot
    Braunli, J. (2017a, 29-noyabr). Matnni umumlashtirishga yumshoq kirish. 2018-yil 02-
    mart, https://
    machinelearningmastery.com/gentle-introduction-text-summarization/ dan olindi
    2018-yil 01-martda olindi.
    Kristofer, C. (2015 yil, 27 avgust). LSTM tarmoqlarini tushunish. 2018-yil 02-mart, colah.github.io/posts/
    2015-08-Understanding-LSTMs/ saytidan olindi.
    Chowdhury, G. (2003). Tabiiy tilni qayta ishlash. Axborot fanining yillik sharhi
    Dalal, V. va Malik, LG (2013 yil, dekabr). Ekstraktiv va mavhum matnni umumlashtirish usullari
    bo'yicha tadqiqot. Muhandislik va texnologiyaning rivojlanayotgan tendentsiyalarida
    (ICETET), 2013 6-xalqaro konferentsiya (109-110-betlar). IEEE. 2018-yil 01-martda olindi.
    Das., K. (2017). Flask bilan tanishtirish. 2018-yil 27-fevral, pymbook.readthedocs.io/
    en/latest/flask.html dan olindi
    51
    va Texnologiya, 37(1), 51-89. doi: 10.1002/aris.1440370103. 2018-yil 02-martda olindi
    Braunli, J. (2017b, 09-avgust). Python-da Keras bilan chuqur o'rganish uchun ko'rsatkichlardan qanday foydalanish kerak.
    Bahdanau, D., Cho, K. va Bengio, Y. (2014). Tegishlash va tarjima qilishni birgalikda o'rganish orqali
    neyron mashina tarjimasi. arXiv oldindan chop etish arXiv: 1409.0473. 2018-yil 28-fevralda olindi.
    Brill, E. (2000). Nutq qismini teglash. Tabiiy tilni qayta ishlash bo'yicha qo'llanma, 403-414.
    2018-yil 28-fevral, https://
    machinelearningmastery.com/custom-metrics-deep-learning-keras-python/ dan olindi
    Brownlee, J. (2017c, 11 oktyabr). Matn uchun so'zlarni joylashtirish nima? 2018-yil 28-fevral,
    machinelearningmastery.com/what-are-word-embeddings/ saytidan olindi
    Machine Translated by Google


    Getbootstrap.com. (2018). 2018 yil 02 martda olindi
    Lopyrev, K. (2015). Takroriy neyron tarmoqlari bilan yangiliklar sarlavhalarini yaratish. arXiv
    oldindan chop etish arXiv: 1512.01712. 2018-yil 28-fevralda olindi.
    Eng so'nggi texnologiyalarni anglash. Hisoblash tilshunosligi bo‘yicha 23-xalqaro konferensiya
    materiallarida: Plakatlar (365-373-betlar). Hisoblash tilshunosligi assotsiatsiyasi. 2018-yil 28-
    fevralda olindi.
    Xulosa chiqarish filiallari. 2018-yil 25-fevralda olindi.
    Keras: Python Deep Learning kutubxonasi. (nd). 2018-yil 27-fevralda olindi
    Juniper tarmoqlari. (2018). 2018-yil 02-mart, https://www.juniper.net/us/en/ saytidan olindi.
    52
    LXML - Python bilan XML va HTMLni qayta ishlash. (2017 yil, 4 noyabr). 2018-yil 25-fevral, lXML.de/
    index.html saytidan olindi
    http://getbootstrap.com/docs/4.0/getting-started/introduction/
    Ketkar, N. (2017). Keras bilan tanishtirish. Python bilan chuqur o'rganishda (97-111-betlar). Apress,
    Glorot, X. va Bengio, Y. (2010, mart). Treningning qiyinligini chuqur tushunish
    https://keras.io/
    Lin, CY (2004). Rouge: Xulosalarni avtomatik baholash uchun to'plam. Matn
    Hasan, KS, & Ng, V. (2010, avgust). Nazorat qilinmagan kalit iboralarni chiqarishdagi jumboqlar:
    oldinga yo'naltirilgan neyron tarmoqlari. Sun'iy intellekt va statistika bo'yicha o'n uchinchi
    xalqaro konferentsiya materiallarida (249-256-betlar). 2018-yil 2-mart, http://
    proceedings.mlr.press/v9/glorot10a.html dan olindi
    Berkeley, CA. 2018-yil 26-fevral, https://
    link.springer.com/chapter/10.1007/978-1-4842-2766-4_7 dan olindi.
    Machine Translated by Google


    2018-yil 23-fevralda olindi.
    2018-yil 02-mart, https://hackernoon.com/
    attention-mechanism-in-neural-network-30aaf5e39512 dan olindi
    Nallapati, R., Chjou, B., Gulchehre, C. va Xiang, B. (2016). Sequence-to-sequence RNN va undan tashqarida
    foydalanish orqali mavhum matnni umumlashtirish. arXiv oldindan chop etish arXiv: 1602.06023.
    Radhakrishnan, P. (2017 yil, 16 oktyabr). Neyron tarmoqdagi e'tibor mexanizmi - Hacker Noon.
    Papineni, K., Roukos, S., Ward, T. va Zhu, WJ (2002, iyul). BLEU: Avtomatik usul
    http://www.nltk.org/
    53
    Rahm, E. va Do, HH (2000). Ma'lumotlarni tozalash: muammolar va joriy yondashuvlar. IEEE Data Eng. Bull.,
    23(4), 3-13. 2018-yil 01-martda olindi.
    Tabiiy til asboblar to'plami. (2017 yil, 24 sentyabr). 23-fevralda olindi
    Pennington, J., Socher, R. va Manning, C. (2014). Qo'lqop: Word uchun global vektorlar
    Mihalcea, R. va Tarau, P. (2004). Textrank: matnga tartib kiritish. Tabiiy tilni qayta ishlashda empirik usullar
    bo'yicha 2004 yilgi konferentsiya materiallarida. 2018-yil 27-fevralda olindi.
    Mashina tarjimasini baholash. Hisoblash tilshunosligi assotsiatsiyasining 40-yillik majlisi
    materiallarida (311-318-betlar). Hisoblash tilshunosligi assotsiatsiyasi. 2018-yil 01-martda olindi.
    Python ma'lumotlarni tahlil qilish kutubxonasi. (nd). 2018-yil 02-mart, https://pandas.pydata.org/ saytidan olindi
    Tillar (221-245-betlar). Springer, Berlin, Geydelberg. 2018-yil 27-fevralda olindi.
    Vakillik. Tabiiy tilni qayta ishlashda empirik usullar bo'yicha 2014 yilgi konferentsiya materiallarida
    (EMNLP) (1532-1543-betlar). 2018-yil 01-martda olindi.
    Mohit, B. (2014). Nomlangan ob'ektni tan olish. Semit tilini tabiiy tilda qayta ishlashda
    Machine Translated by Google


    Rush, AM, Chopra, S. va Weston, J. (2015). Abstrakt uchun neyron e'tibor modeli
    Stackoverflow.com. (2018). 2018-yil 02-mart, https://stackoverflow.com/tour saytidan olindi
    radimrehurek.com/gensim/intro.html
    Socher, R., Bengio, Y. va Manning, C. (2013). NLP uchun chuqur o'rganish. Hisoblash logistikasi
    assotsiatsiyasi (ACL), 2012 va Hisoblash tilshunosligi assotsiatsiyasining (NAACL)
    Shimoliy Amerika bo'limida o'quv qo'llanma. 2018-yil 01-martda olindi.
    http://scikit-learn.org/stable/index.html
    Scikit-Learn: Python-da mashinani o'rganish. (nd). 2018-yil 23-fevralda olindi
    54
    Gapni umumlashtirish. arXiv oldindan chop etish arXiv: 1509.00685. 2018-yil 25-fevralda olindi.
    2018-yil 02-martda olindi.
    Ramos, J. (2003 yil, dekabr). Hujjatdagi so'zning ahamiyatini aniqlash uchun TF-IDF dan foydalanish
    Shalkoff, RJ (1997, iyun). Sun'iy neyron tarmoqlari (1-jild). Nyu-York: MakGrou-Xill.
    2018-yil 02-martda olindi.
    Rehurek, R. (2009). Gensim: Odamlar uchun mavzuni modellashtirish. 2018 yil 02 martda olindi
    Sutskever, I., Vinyals, O., & Le, QV (2014). Neyron tarmoqlar bilan ketma-ket o'rganish ketma-ketligi.
    Neyron axborotni qayta ishlash tizimlarining yutuqlari (3104-3112-betlar).
    So'rovlar. Mashinalarni o'rganish bo'yicha birinchi o'quv konferentsiyasi materiallarida (242-jild,
    133-142-betlar). 2018-yil 01-martda olindi.
    Machine Translated by Google


    Nomlangan shaxsni tan olish (NER) nomlarni topish va tasniflash usulidir.
    4. Oldinga neyron tarmoq modeli
    7. Keras toifali yo'qotish
    Keras (Braunli, 2017b).
    1. Nomlangan ob'ektni tan olish (NER)
    (Glorot va
    Bengio,
    2010)
    Nutqning bir qismi (POS) teglash - bu matndagi so'zni teglash usuli bo'lib, unga mos keladi
    2. Nutq qismi (POS) tegi
    barcha yashirin qatlamlar orqali oldinga siljiydi (Glorot &
    Bengio,
    2010).
    Tegishli neyron tarmog'i modeli ma'lumotlar oziqlanadigan neyron tarmoq turidir
    matndagi otlarni oldindan belgilangan toifalarga ajratadi (Mohit, 2014).
    3. Konvolyutsion tarmoq modeli
    enkoder-dekoder modelida chiqishlarni yaratishda
    (Radhakrishnan, 2017).
    55
    nutqning ma'lum bir qismi (Brill, 2000).
    Diqqat mexanizmi dekoderga asosiy matnning muhim qismiga e'tibor qaratishga yordam berish usuli
    5. Diqqat mexanizmi
    (CNN) neyron tarmog'ining bir turi bo'lib, strukturasi chuqurroq bo'lib, keyin oldinga siljiydi
    lekin loyihamizning asosiy kontseptsiyasi bilan bog'liq bo'lishi shart emas.
    Keras toifali aniqligi - bu tasniflash muammosida foydalanish mumkin bo'lgan ko'rsatkich
    6. Kerasning kategorik aniqligi
    Ushbu ilovada biz ushbu hisobotda keltirilgan ba'zi texnik atamalarni qisqacha tushuntiramiz
    Konvolyutsion neyron tarmog'i sifatida ham tanilgan konvolyutsion tarmoq modeli
    Ilova A: kengaytirilgan texnik shartlar
    Machine Translated by Google


    Keras toifali yo'qotish - bu Kerasda tasniflash muammosida ishlatiladigan yo'qotish funktsiyasi
    noto'g'ri bashoratlarning narxini o'lchash
    (Ketkar, 2017).
    56
    Machine Translated by Google

    Download 2,7 Mb.
    1   ...   18   19   20   21   22   23   24   25   26




    Download 2,7 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

    Download 2,7 Mb.
    Pdf ko'rish