Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




Download 2,7 Mb.
Pdf ko'rish
bet9/26
Sana20.12.2023
Hajmi2,7 Mb.
#125027
1   ...   5   6   7   8   9   10   11   12   ...   26
Bog'liq
juniper-final (2)

3.0 Tegishli ish
Nomlangan ob'ektni tanib olish kabi umumiy NLP vazifalari uchun eng zamonaviy natijalar bilan bajarilgan.
kalit so'zlarni chiqarishni amalga oshirishning o'ziga xosligi. Ushbu turdagi ekstraktsiyani ham qo'llash mumkin
kodlovchilar va dekoderlar matnni umumlashtirishning boshqa an'anaviy usullaridan ustun keldi. Kodlovchi qismi kodlaydi
12
Tabiiy tilni qayta ishlash (NLP). Chuqur o'rganish, mashinani o'rganish sohasi mavjud
jumlalar. Xuan Ramos TF-IDFni taklif qildi (2003). U so'zni ishlatish g'oyasini o'rganib chiqdi
mavhum xulosa.
C., 2013). Matnni umumlashtirishda ikkita umumiy yondashuv ekstraktiv va
bu algoritmlar - Textrank va TF-IDF va turli ma'lumotlar to'plamlarida ularning ishlashini solishtirdi.
(NER), Nutqning bir qismi (POS) teglash yoki hissiyotlarni tahlil qilish (Socher, R., Bengio, Y., & Manning,
jumladagi har bir so'zning TF-IDF ni hisoblash orqali butun jumla. Biz ikkalasini ham amalga oshirdik
(Hasan, Kazi Saidul va Vinsent Ng, 2010). Textrank birinchi marta Mihalcea, Rada tomonidan kiritilgan.
Chjou, Santos, Gulchehre va Xiang 2016). Sequence to sequence modellari muvaffaqiyatli bo'ldi
Ekstraksiyani umumlashtirish uchun TF-IDF va Textrank kabi dominant usullar
Mavhum umumlashtirish ko'pincha chuqur o'rganish modellari bilan amalga oshiriladi.
Mashhurlik kasb etayotgan ana shunday modellardan biri sequence to sequence modelidir (Nallapati,
Eng muhimini topish uchun Google-ning Pagerank-ga o'xshash grafik asosidagi algoritmdan foydalanish g'oyasi
Mavhum umumlashtirish bo'yicha so'nggi tadqiqotlar ketma-ketlik modellaridan foydalanishni ko'rsatdi
matnni umumlashtirishning mavjud usullari. Matnni umumlashtirish hali dastlabki bosqichida bo'lgan sohadir
Juniper Networks uchun matnni umumlashtirish vositasini yaratish uchun biz avval izlanish olib bordik
va Pol Tarau o'zlarining Textrank qog'ozlarida : Matnni tartibga solish (2004). Gazeta taklif qildi
nutqni aniqlash va mashina tarjimasi (Sutskever, I., Vinyals, O., & Le, QV, 2014).
Machine Translated by Google


Santos, Gulchehre, & Xiang 2016; Lopyrev, 2015). Har uch jurnalda enkoder-dekoder ishlatilgan
Facebook AI Research guruhi foydalangan. Bundan tashqari, IBM Watson guruhi foydalangan
umumlashtirish. Kodlovchi-dekoderda LSTM qatlamlaridan foydalanish ham qo'shimcha ma'lumot olish imkonini beradi
an'anaviy RNNlarga qaraganda asl maqola mazmunidan. Oldingi ishlardan ilhomlangan ushbu loyihada,
Kodlovchi va dekoderda muddatli xotira (LSTM). Ular xuddi shu xabarlar to'plamidan foydalanganlar
bizning mavhum xulosalash modelimiz (Rush, Chopra, & Weston, 2015; Nallapati, Chjou,
Facebook AI Research guruhi Rush va boshqalar tomonidan yaratilgan modeldan foydalanilgan
sarlavhalar.
ma'lum ma'lumotlar to'plamlarida Rush va boshqalarning modellarini ortda qoldira oldi.
bashorat qilish uchun yangilik maqolalari ma'lumotlar to'plamida mavhum umumlashtirishni amalga oshirish uchun modellar
sarlavha yaratish uchun maqolalar mazmunining dastlabki ikki-besh jumlasi (2016). Nallapati va boshqalar.
sobit uzunlikdagi vektorga kirish hujjati. Keyin dekoder qismi belgilangan uzunlikdagi vektorni oladi
(batafsil ma'lumot uchun A ilovasiga qarang: kengaytirilgan texnik shartlar). Ularning modelida faqat birinchisi
(2015). Loprev shuningdek, yangiliklar maqolalarining ma'lumotlar to'plamidan foydalangan va model sarlavhalarni bashorat qiladi
13
kodlovchi uchun konvolyutsion tarmoq modeli va dekoder uchun oldinga neyron tarmoq modeli
Konstantin Lopyrevning maqolasi to'rtta LSTM qatlamidan foydalanadigan model haqida gapiradi va
e'tibor mexanizmi, kodlovchi-dekoder modelining ish faoliyatini yaxshilashga yordam beradigan mexanizm
IBM Watson jamoasi Nallapati va boshqalar tomonidan yaratilgan model Long Short-dan foydalangan.
Barcha uchta ish koder-dekoder modeli matn uchun potentsial yechim ekanligini ko'rsatadi
Biz ilhom sifatida matnni umumlashtirish bo'yicha so'nggi uchta tadqiqotga e'tibor qaratdik
va uni kutilgan natijaga dekodlaydi (Bahdanau, Cho, & Bengio, 2014).
Har bir maqola mazmunining jumlasi sarlavha yaratish uchun ishlatiladi (2015).
har bir moddaning birinchi xatboshidagi maqolalar.
Machine Translated by Google


yangiliklar maqolalari kabi toza. Bizning ma'lumotlar to'plamimizda juda ko'p texnik atamalar, kodlash tillari, shuningdek, mavjud
Xulosa asl nusxadan ko'ra aniqroq bo'ladi.
o'qilmaydigan belgilar. Shuning uchun biz ekstraktiv xulosani birlashtirishga harakat qildik va
14
biz LSTM bilan kodlovchi-dekoder modelidan ham foydalandik, ammo biroz boshqacha tuzilishda. Biz
yaxshiroq ishlashni ta'minlaydimi yoki yo'qligini tekshirish uchun mavhum xulosa. Biz ekstraktiv deb umid qildik
kodlovchida uchta LSTM qatlami va dekoderda yana uchta LSTM qatlami ishlatilgan (tafsilotlar
model 3.0-bo'limda tasvirlangan). Biroq, ushbu loyihada foydalanilgan ma'lumotlar to'plami bunday emas edi
Xulosa maqolalardan asosiy jumlalarni ajratib olishga yordam berishi mumkin, ulardan kirish sifatida foydalanish mumkin
bizning mavhum chuqur o'rganish modellarimiz. Shunday qilib, mavhum uchun kirish hujjatlari
Machine Translated by Google



Download 2,7 Mb.
1   ...   5   6   7   8   9   10   11   12   ...   26




Download 2,7 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

Download 2,7 Mb.
Pdf ko'rish