Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

Download 2,7 Mb. Pdf ko'rish
bet	10/26
Sana	20.12.2023
Hajmi	2,7 Mb.
	#125027

1 ... 6 7 8 9 10 11 12 13 ... 26

Bog'liq
juniper-final (2)

4.1 Malumotlar toplamini tanlang va tozalang

4.0 Metodologiya
2-qadam: Ekstraksiyani umumlashtirish modelini yarating
4.1.1 Ma'lumotlar to'plami haqida ma'lumot
15
1-qadam: Ma'lumotlar to'plamini tanlang va tozalang
ma'lumotlarni tozalash va tasniflash bosqichlari.
5-qadam: mavhum umumlashtirish modelini sozlang
4-qadam: Turli ma'lumotlar to'plamlarida modellarni sinab ko'ring va taqqoslang
maqolalar maÿlumotlar toÿplami (News Dataset), Juniper Knowledge Base maÿlumotlar toÿplami (KB Dataset), Juniper
3-qadam: mavhum umumlashtirish modelini yarating
Biz beshta ma'lumotlar to'plamida ishladik - StackOverflow ma'lumotlar to'plami (Stack Dataset), yangiliklar
Yangiliklar ma'lumotlar to'plami allaqachon tozalangan, biz birinchi navbatda qolgan to'rtta ma'lumotlar to'plamini tozalashga e'tibor qaratdik.
6-qadam: Oxir-oqibat dasturni yarating
Texnik yordam markazi ma'lumotlar to'plami (JTAC ma'lumotlar to'plami) va JIRA ma'lumotlar to'plami. Har bir ma'lumotlar to'plamidan iborat
har bir ish maqola, xulosa yoki sarlavhadan iborat bo'lgan ko'p hollarda. Xom bo'lganidan beri
ma'lumotlar to'plamining mazmuni va ma'lumotlar to'plamidan foydalanish sababi. 4.1.2 va 4.1.3 bo'limlari ichiga sho'ng'idi
rasmda ma'lumotlar to'plamini tozalashdan so'ng bizda ikkita katta ma'lumotlar to'plami (Stack Dataset va KB) bor edi.
Juniper ma'lumotlar to'plamidagi ilovalar. Maqsadga erishish uchun biz quyidagi bosqichlarni bajardik:
Ushbu loyihaning maqsadi avtomatik matnni umumlashtirishni o'rganish va uni tahlil qilishdir
4.1.1 bo'limida biz foydalangan har bir ma'lumotlar to'plami haqida asosiy ma'lumotlar, aniqrog'i
Quyidagi 7-rasmda ma'lumotlarni tozalashdan oldin va keyin ma'lumotlar to'plami hajmidagi o'zgarishlar ko'rsatilgan. Ko'rsatilganidek
4.1 Ma'lumotlar to'plamini tanlang va tozalang
Machine Translated by Google

Stack Dataset - bu StackOverflow veb-saytidagi savollar va javoblar to'plami
KB ma'lumotlar to'plamiga qaraganda tozaroq va modellarimizni tozaroq ma'lumotlar to'plamida ishga tushirish orqali biz birinchi navbatda diqqatni jamlashimiz mumkin
kod qismlarini, inglizcha bo'lmagan maqolalarni va qisqa maqolalarni olib tashlash. Nihoyat, bizda 37 378 ta holat bor
mezon o'rnatish uchun modelimizni loyihalash bo'yicha.
(stackoverflow.com, 2018). Biz Stack Dataset ning faqat tegishli filtrlangan versiyasidan foydalandik
16
tozalashdan keyin. Stack ma'lumotlar to'plami bilan ishlashni tanlaganimizning sababi shundaki, unda mavjud
Ma'lumotlar to'plami) 15 000 dan ortiq holatlar va ikkita kichik ma'lumotlar to'plami (JTAC ma'lumotlar to'plami va JIRA ma'lumotlar to'plami)
tarmoq bilan bog'liq muammolar. Ushbu ma'lumotlar ramkasida 39 320 ta holat mavjud, bu eng katta ma'lumotlar to'plamidir
bilan ishlash uchun qariyb 5000 holatlar.
KB ma'lumotlar to'plamiga o'xshash texnik savollar. Biroq, Stack ma'lumotlar to'plami go'yo
ustida ishladik. Har bir holat uchun biz faqat yagona savol identifikatorini saqlash uchun maÿlumotlar toÿplamini filtrladik
savol sarlavhasi, savol qismi va javob qismi. Keyin biz filtrlangan ma'lumotlar to'plamini tozaladik
7-rasm: Ma'lumotlar to'plami haqida ma'lumot
Machine Translated by Google

ma'lumotlar to'plami Juniper KB ma'lumotlar to'plamiga tegishli emas edi.
har bir ishning o'ziga xos identifikatori, konspekti va tavsifi mavjud. Xom ma'lumotlar to'plami shovqinli JSON faylida.
etishmayotgan qiymat va shovqinli so'zlar yo'q. Ushbu yo'riqnomaga asoslanib, biz ushbu asosiy bosqichlarni bajardik
ma'lumotlar to'plamlarimizni tozalang:
va har bir maqolaning qisqacha mazmuni. Ushbu ma'lumotlar to'plami faqat ekstraktiv xulosalar uchun ishlatilgan
To'rtinchidan, JTAC ma'lumotlar to'plami JTAC holatlari haqida ma'lumotni o'z ichiga oladi. Unda 8241 ta holat mavjud va
XML fayllari va har bir XML fayli bitta KB maqola haqidagi ma'lumotlarni o'z ichiga oladi. Treningimiz uchun
tarmoq muammolari bo'yicha savollar va javoblar. Xom ma'lumotlar to'plami 23,989 katalog daraxtida joylashgan
muammolarni kuzatish uchun Atlassian tomonidan ishlab chiqilgan loyihani boshqarish vositasi. JIRA ma'lumotlar to'plamida 5248 ta mavjud
Uchinchidan, biz eng ko'p e'tibor qaratadigan KB ma'lumotlar to'plami texnik ma'lumotlarni o'z ichiga oladi
Nihoyat, JIRA ma'lumotlar to'plami turli loyihalardagi JIRA xatolari haqida. JIRA ommaviydir
Ikkinchidan, Yangiliklar ma'lumotlar to'plami Hindiston yangiliklaridan yangiliklar maqolalarini o'z ichiga olgan ommaviy ma'lumotlar to'plamidir
va ma'lumotlar ramkasidagi har bir KB maqola uchun yechim tanasi. Biz eng yaxshi 30 tasini filtrladik

Download 2,7 Mb.

1 ... 6 7 8 9 10 11 12 13 ... 26

Download 2,7 Mb.

Pdf ko'rish