Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




Download 2,7 Mb.
Pdf ko'rish
bet18/26
Sana20.12.2023
Hajmi2,7 Mb.
#125027
1   ...   14   15   16   17   18   19   20   21   ...   26
Bog'liq
juniper-final (2)

5.2 Ekstraksiya modelining ishlashi
Ekstraksiyani umumlashtirish algoritmlari uch xil ma'lumotlar to'plamida sinovdan o'tkazildi (
TF-IDF, so'nggi ikki tajriba esa bo'limda tasvirlangan nazorat tajribalari edi
15-rasmda Stack Dataset’da tajribalarni bajarish natijalari ko‘rsatilgan. Ko'rsatilgandek
33
eksperimentlar - dastlabki ikkita tajriba Textrank va ikkita tanlangan algoritm bilan o'tkazildi
nazorat eksperimentlariga qaraganda yaxshiroq bajarildi. Biroq, Stack ma'lumotlar to'plamini sarhisob qilish
yangiliklar maqolasi, birinchi qatorlar, shuningdek, etakchi paragraf deb ataladi, odatda tarkibni qamrab oladi.
Yangiliklar ma'lumotlar to'plami, Stack ma'lumotlar to'plami va KB ma'lumotlar to'plami). Har bir ma'lumot to'plami to'rt xil bo'yicha baholandi
14-rasmda Yangiliklar ma'lumotlar to'plamida tajribalarni bajarish natijalari ko'rsatilgan. Ko'rsatilgandek
natijada, xulosa sifatida birinchi uchta satrdan foydalanganda yangiliklar eng yaxshi natija bergandek tuyuldi. a ichida
ko'rsatkich, Textrank va TF-IDF ning Stack ma'lumotlar to'plamidagi ishlashi o'xshash edi. Ikkalasi ham
4.2.2.
14-rasm: Yangiliklar ma'lumotlar to'plamidan olingan natija
Machine Translated by Google


qadamlardan muhim jumlalarni olish o'rniga; uni “ushbu maqola” kabi umumlashtirish kerak
jumla. Biroq, Stackoverflow ma'lumotlar to'plami natijalariga o'xshab, biz bunga ishonamiz
muayyan Juniper mahsulotini tavsiflovchi maqolaga xos bo'lgan kalit so'zlar. TF-IDF qabul qiladi
Juniperning ko'pincha foydalanuvchi qo'llanmasi yoki qo'llanmasiga o'xshab ketadigan maqolalarini umumlashtirish yaxshi bo'lardi
buzilgan veb-serverni tuzatish qadamlarini tavsiflaydi.
34
Ushbu hujjat uchun so'z qanchalik noyob ekanligini hisobga oling va keyin uning ahamiyatini hisoblang
ekstraktsiya ko'pincha mantiqiy bo'lmasligi mumkin, chunki ba'zi bayonotlar kontekstdan chiqib ketadi. Masalan, agar
Maqolada buzilgan veb-serverni tuzatish bo'yicha qadamlar tasvirlangan bo'lsa, u bir nechtasini chiqarishga yordam bermasligi mumkin
o'rtadagi gaplar xulosa sifatida. Mavhum yechim sifatida yaxshiroq yondashuv bo'lishi mumkin
KB ma'lumotlar to'plamini ajratib olish orqali umumlashtirish uchun eng yaxshi algoritm TF-IDF edi (ko'rsatilgandek)
16-rasmda). Bizning fikrimizcha, bu Juniperning maqolalari va ularning xulosalari ko'pincha o'z ichiga oladi
15-rasm: Stack ma'lumotlar to'plamidan olingan natija
Machine Translated by Google


Mavhum umumlashtirish algoritmi to'rt xil ma'lumotlar to'plamida sinovdan o'tkazildi (Stack
KB ma'lumotlar to'plami va undan mavhum xulosa uchun butun maqola o'rniga kirish sifatida foydalaning.
35
Ma'lumotlar to'plami, KB ma'lumotlar to'plami, JIRA ma'lumotlar to'plami va JTAC ma'lumotlar to'plami). Abstraktiv
Uning natijalari keyinroq muhokama qilinadi.
chiqarish orqali emas, balki abstraksiya orqali amalga oshiriladi. Buning sababi, maqolalar odatda o'z ichiga oladi
Xulosa modeli to'rttasini o'rgatishda har bir qatlamda 512 ta yashirin birlikdan foydalanish uchun tuzilgan
protsessual qadamlar va eng muhim qadamlarni yig'ish ko'pincha xulosani keltirmaydi
ma'lumotlar to'plamlari. Bundan tashqari, model har qanday kirish ma'lumotlari bo'linadigan tarzda sozlangan
maqola. Keyinchalik biz har bir maqoladan bir nechta jumlalarni ajratib olish uchun TF-IDF dan foydalanishga qaror qildik
har biri 64 ta maqoladan iborat partiyalar. To'liq kirish ma'lumotlar to'plami o'rniga to'plamlardan foydalanish, ko'paytirishga yordam beradi
16-rasm: KB ma'lumotlar to'plamidan olingan natija

Download 2,7 Mb.
1   ...   14   15   16   17   18   19   20   21   ...   26




Download 2,7 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

Download 2,7 Mb.
Pdf ko'rish