23-rasm: Matnni oxirigacha umumlashtirish veb-ilovasining skrinshoti
48
Machine Translated by Google
6.0 Xulosa
hajmi oshib boradi. Har bir maqolada matn xulosasini qo'llash mijozni yaxshilashi mumkin
modellar to'rtta o'xshash ma'lumotlar to'plami bo'yicha o'qitildi va undan foydalanib, uchidan uchiga veb-ilova qurildi
modelning ish faoliyatini yaxshilash uchun. teglari bilan belgilangan kod parchalari edi
inglizcha bo'lmagan so'zlar. Model tomonidan tanib bo'lmaydigan har qanday so'zlarni olib tashlash kerak
asl hujjatlardagi fikrlar. Juniper Networks hali ham ko'plab katta ma'lumotlar to'plamlariga ega
oltita LSTM qatlami: kodlovchida uchta qatlam, qolgan uchtasi dekoderda. Kompilyatsiya qilingan
Juniper Networks tomonidan taqdim etilgan. Oldingi ishlardan ilhom olib, biz ikkita asbob yaratdik
Biz ommaviy ma'lumotlar to'plamlari va ma'lumotlar to'plamlarida matnni umumlashtirish vositasini yaratish ustida ishladik
jumlalar, ammo eng yaxshi natijalarga erishish uchun tanlangan ma'lumotlar to'plami modeli bilan chambarchas bog'liq bo'lgan kirish talab qilinadi.
o'qitilgan modellar. Oxir-oqibat xulosalovchi har qanday kiritish uchun matnni umumlashtirishni amalga oshirishi mumkin
tajriba va xodimlarning samaradorligi.
TF-IDF va Textrank yordamida maqolalarni kiritish. Ekstraksiyani umumlashtirish vositasi qazib olishga imkon beradi
model, modelni yanada yaxshilashning bir necha yo'li mavjud.
49
matnni umumlashtirish. Birinchi matnni umumlashtirish vositasi bo'yicha ekstraktiv xulosani amalga oshiradi
Juniper ma'lumotlar to'plami bo'yicha xulosa. Garchi ba'zi ma'lumotlar to'plamlarida biz tomonidan yaratilgan yaxshi xulosalar mavjud edi
Xulosa qilib aytganda, biz yaratgan vositalar matnni amalga oshirish imkoniyatlarini o'rganib chiqdi
neyron tarmoqlari bilan mavhum xulosalash vositasi. Biz kodlovchi-dekoder modelini yaratdik
kalitni ushlaydigan matnli hujjatlarning qisqacha mazmunini ko'rsatish orqali o'qish vaqtini qisqartirish
ispancha so'zlarni o'z ichiga olgan maqolalar olib tashlandi, ammo boshqa maqolalar ham bo'lishi mumkin
Birinchidan, biz ma'lumotlar to'plamlarini yanada tozalash mumkin deb o'ylaymiz. Ma'lumotlarni tozalash jarayonida biz
asl maqolalardan istalgan miqdordagi asosiy jumlalar. Biz amalga oshirgan yana bir vosita
Doimiy o'sib borayotgan matn ma'lumotlari bilan matnni umumlashtirish uchun imkoniyat bor ko'rinadi
Machine Translated by Google
Biz mavhum xulosa qilish uchun yaratgan model insoniyatni yaratishda yaxshi ish qildi.
Biz foydalangan eng katta ma'lumotlar to'plamida atigi yigirma mingga yaqin maqola bor edi. Agar ushbu o'zgarishlar qo'llanilishi mumkin bo'lsa,
kiritish matnida turli dasturlash tillari.
(Nallapati, Chjou, Santos, Gulchehre, & Xiang 2016). Holbuki, cheklangan resurslar tufayli
tadqiqot, biz e'tibor mexanizmini bajaradigan modelga maxsus qatlam qo'shishni taklif qilamiz
kirish hujjatlaridagi barcha muhim ma'lumotlar. Bu muammoni hal qilish uchun, bizning asoslangan
50
modelning ishlashi yaxshilanishi mumkin deb o'ylaymiz.
berilgan kirishlardan o'qilishi mumkin bo'lgan jumlalar. Biroq, u har doim ham xulosalarni yozishni yaratmagan
umumlashtirish.
maqolalardan olib tashlangan, lekin matn qismida boshqa kod bo'laklari bo'lishi mumkin
(Lopyrev, 2015). Diqqat mexanizmi mavhumlik kabi vazifalarda foydali ekanligi isbotlangan
yaxshi natijalarga erishish uchun o'z matnlarini umumlashtirish modellarini millionlab hujjatlarga o'rgatdi
salbiy tarzda ishlash. Yozilgan kodni aniqlash usullarini ko'rib chiqishni tavsiya etamiz
teglaridan tashqari maqolalar. Kirish ma'lumotlar to'plamida bunday bo'laklarga ega bo'lish modelga ta'sir qiladi
Nihoyat, biz modellarni o'rgatish uchun kattaroq ma'lumotlar to'plamidan foydalanishni taklif qilamiz. O'tmishdagi tadqiqotchilar
Machine Translated by Google
Malumot
Braunli, J. (2017a, 29-noyabr). Matnni umumlashtirishga yumshoq kirish. 2018-yil 02-
mart, https://
machinelearningmastery.com/gentle-introduction-text-summarization/ dan olindi
2018-yil 01-martda olindi.
Kristofer, C. (2015 yil, 27 avgust). LSTM tarmoqlarini tushunish. 2018-yil 02-mart, colah.github.io/posts/
2015-08-Understanding-LSTMs/ saytidan olindi.
Chowdhury, G. (2003). Tabiiy tilni qayta ishlash. Axborot fanining yillik sharhi
Dalal, V. va Malik, LG (2013 yil, dekabr). Ekstraktiv va mavhum matnni umumlashtirish usullari
bo'yicha tadqiqot. Muhandislik va texnologiyaning rivojlanayotgan tendentsiyalarida
(ICETET), 2013 6-xalqaro konferentsiya (109-110-betlar). IEEE. 2018-yil 01-martda olindi.
Das., K. (2017). Flask bilan tanishtirish. 2018-yil 27-fevral, pymbook.readthedocs.io/
en/latest/flask.html dan olindi
51
va Texnologiya, 37(1), 51-89. doi: 10.1002/aris.1440370103. 2018-yil 02-martda olindi
Braunli, J. (2017b, 09-avgust). Python-da Keras bilan chuqur o'rganish uchun ko'rsatkichlardan qanday foydalanish kerak.
Bahdanau, D., Cho, K. va Bengio, Y. (2014). Tegishlash va tarjima qilishni birgalikda o'rganish orqali
neyron mashina tarjimasi. arXiv oldindan chop etish arXiv: 1409.0473. 2018-yil 28-fevralda olindi.
Brill, E. (2000). Nutq qismini teglash. Tabiiy tilni qayta ishlash bo'yicha qo'llanma, 403-414.
2018-yil 28-fevral, https://
machinelearningmastery.com/custom-metrics-deep-learning-keras-python/ dan olindi
Brownlee, J. (2017c, 11 oktyabr). Matn uchun so'zlarni joylashtirish nima? 2018-yil 28-fevral,
machinelearningmastery.com/what-are-word-embeddings/ saytidan olindi
Machine Translated by Google
Getbootstrap.com. (2018). 2018 yil 02 martda olindi
Lopyrev, K. (2015). Takroriy neyron tarmoqlari bilan yangiliklar sarlavhalarini yaratish. arXiv
oldindan chop etish arXiv: 1512.01712. 2018-yil 28-fevralda olindi.
Eng so'nggi texnologiyalarni anglash. Hisoblash tilshunosligi bo‘yicha 23-xalqaro konferensiya
materiallarida: Plakatlar (365-373-betlar). Hisoblash tilshunosligi assotsiatsiyasi. 2018-yil 28-
fevralda olindi.
Xulosa chiqarish filiallari. 2018-yil 25-fevralda olindi.
Keras: Python Deep Learning kutubxonasi. (nd). 2018-yil 27-fevralda olindi
Juniper tarmoqlari. (2018). 2018-yil 02-mart, https://www.juniper.net/us/en/ saytidan olindi.
52
LXML - Python bilan XML va HTMLni qayta ishlash. (2017 yil, 4 noyabr). 2018-yil 25-fevral, lXML.de/
index.html saytidan olindi
http://getbootstrap.com/docs/4.0/getting-started/introduction/
Ketkar, N. (2017). Keras bilan tanishtirish. Python bilan chuqur o'rganishda (97-111-betlar). Apress,
Glorot, X. va Bengio, Y. (2010, mart). Treningning qiyinligini chuqur tushunish
https://keras.io/
Lin, CY (2004). Rouge: Xulosalarni avtomatik baholash uchun to'plam. Matn
Hasan, KS, & Ng, V. (2010, avgust). Nazorat qilinmagan kalit iboralarni chiqarishdagi jumboqlar:
oldinga yo'naltirilgan neyron tarmoqlari. Sun'iy intellekt va statistika bo'yicha o'n uchinchi
xalqaro konferentsiya materiallarida (249-256-betlar). 2018-yil 2-mart, http://
proceedings.mlr.press/v9/glorot10a.html dan olindi
Berkeley, CA. 2018-yil 26-fevral, https://
link.springer.com/chapter/10.1007/978-1-4842-2766-4_7 dan olindi.
Machine Translated by Google
2018-yil 23-fevralda olindi.
2018-yil 02-mart, https://hackernoon.com/
attention-mechanism-in-neural-network-30aaf5e39512 dan olindi
Nallapati, R., Chjou, B., Gulchehre, C. va Xiang, B. (2016). Sequence-to-sequence RNN va undan tashqarida
foydalanish orqali mavhum matnni umumlashtirish. arXiv oldindan chop etish arXiv: 1602.06023.
Radhakrishnan, P. (2017 yil, 16 oktyabr). Neyron tarmoqdagi e'tibor mexanizmi - Hacker Noon.
Papineni, K., Roukos, S., Ward, T. va Zhu, WJ (2002, iyul). BLEU: Avtomatik usul
http://www.nltk.org/
53
Rahm, E. va Do, HH (2000). Ma'lumotlarni tozalash: muammolar va joriy yondashuvlar. IEEE Data Eng. Bull.,
23(4), 3-13. 2018-yil 01-martda olindi.
Tabiiy til asboblar to'plami. (2017 yil, 24 sentyabr). 23-fevralda olindi
Pennington, J., Socher, R. va Manning, C. (2014). Qo'lqop: Word uchun global vektorlar
Mihalcea, R. va Tarau, P. (2004). Textrank: matnga tartib kiritish. Tabiiy tilni qayta ishlashda empirik usullar
bo'yicha 2004 yilgi konferentsiya materiallarida. 2018-yil 27-fevralda olindi.
Mashina tarjimasini baholash. Hisoblash tilshunosligi assotsiatsiyasining 40-yillik majlisi
materiallarida (311-318-betlar). Hisoblash tilshunosligi assotsiatsiyasi. 2018-yil 01-martda olindi.
Python ma'lumotlarni tahlil qilish kutubxonasi. (nd). 2018-yil 02-mart, https://pandas.pydata.org/ saytidan olindi
Tillar (221-245-betlar). Springer, Berlin, Geydelberg. 2018-yil 27-fevralda olindi.
Vakillik. Tabiiy tilni qayta ishlashda empirik usullar bo'yicha 2014 yilgi konferentsiya materiallarida
(EMNLP) (1532-1543-betlar). 2018-yil 01-martda olindi.
Mohit, B. (2014). Nomlangan ob'ektni tan olish. Semit tilini tabiiy tilda qayta ishlashda
Machine Translated by Google
Rush, AM, Chopra, S. va Weston, J. (2015). Abstrakt uchun neyron e'tibor modeli
Stackoverflow.com. (2018). 2018-yil 02-mart, https://stackoverflow.com/tour saytidan olindi
radimrehurek.com/gensim/intro.html
Socher, R., Bengio, Y. va Manning, C. (2013). NLP uchun chuqur o'rganish. Hisoblash logistikasi
assotsiatsiyasi (ACL), 2012 va Hisoblash tilshunosligi assotsiatsiyasining (NAACL)
Shimoliy Amerika bo'limida o'quv qo'llanma. 2018-yil 01-martda olindi.
http://scikit-learn.org/stable/index.html
Scikit-Learn: Python-da mashinani o'rganish. (nd). 2018-yil 23-fevralda olindi
54
Gapni umumlashtirish. arXiv oldindan chop etish arXiv: 1509.00685. 2018-yil 25-fevralda olindi.
2018-yil 02-martda olindi.
Ramos, J. (2003 yil, dekabr). Hujjatdagi so'zning ahamiyatini aniqlash uchun TF-IDF dan foydalanish
Shalkoff, RJ (1997, iyun). Sun'iy neyron tarmoqlari (1-jild). Nyu-York: MakGrou-Xill.
2018-yil 02-martda olindi.
Rehurek, R. (2009). Gensim: Odamlar uchun mavzuni modellashtirish. 2018 yil 02 martda olindi
Sutskever, I., Vinyals, O., & Le, QV (2014). Neyron tarmoqlar bilan ketma-ket o'rganish ketma-ketligi.
Neyron axborotni qayta ishlash tizimlarining yutuqlari (3104-3112-betlar).
So'rovlar. Mashinalarni o'rganish bo'yicha birinchi o'quv konferentsiyasi materiallarida (242-jild,
133-142-betlar). 2018-yil 01-martda olindi.
Machine Translated by Google
Nomlangan shaxsni tan olish (NER) nomlarni topish va tasniflash usulidir.
4. Oldinga neyron tarmoq modeli
7. Keras toifali yo'qotish
Keras (Braunli, 2017b).
1. Nomlangan ob'ektni tan olish (NER)
(Glorot va
Bengio,
2010)
Nutqning bir qismi (POS) teglash - bu matndagi so'zni teglash usuli bo'lib, unga mos keladi
2. Nutq qismi (POS) tegi
barcha yashirin qatlamlar orqali oldinga siljiydi (Glorot &
Bengio,
2010).
Tegishli neyron tarmog'i modeli ma'lumotlar oziqlanadigan neyron tarmoq turidir
matndagi otlarni oldindan belgilangan toifalarga ajratadi (Mohit, 2014).
3. Konvolyutsion tarmoq modeli
enkoder-dekoder modelida chiqishlarni yaratishda
(Radhakrishnan, 2017).
55
nutqning ma'lum bir qismi (Brill, 2000).
Diqqat mexanizmi dekoderga asosiy matnning muhim qismiga e'tibor qaratishga yordam berish usuli
5. Diqqat mexanizmi
(CNN) neyron tarmog'ining bir turi bo'lib, strukturasi chuqurroq bo'lib, keyin oldinga siljiydi
lekin loyihamizning asosiy kontseptsiyasi bilan bog'liq bo'lishi shart emas.
Keras toifali aniqligi - bu tasniflash muammosida foydalanish mumkin bo'lgan ko'rsatkich
6. Kerasning kategorik aniqligi
Ushbu ilovada biz ushbu hisobotda keltirilgan ba'zi texnik atamalarni qisqacha tushuntiramiz
Konvolyutsion neyron tarmog'i sifatida ham tanilgan konvolyutsion tarmoq modeli
Ilova A: kengaytirilgan texnik shartlar
Machine Translated by Google
Keras toifali yo'qotish - bu Kerasda tasniflash muammosida ishlatiladigan yo'qotish funktsiyasi
noto'g'ri bashoratlarning narxini o'lchash
(Ketkar, 2017).
56
Machine Translated by Google
|