Stack Dataset - bu StackOverflow veb-saytidagi savollar va javoblar to'plami
KB ma'lumotlar to'plamiga qaraganda tozaroq va modellarimizni tozaroq ma'lumotlar to'plamida ishga tushirish orqali biz birinchi navbatda diqqatni jamlashimiz mumkin
kod
qismlarini, inglizcha bo'lmagan maqolalarni va qisqa maqolalarni olib tashlash. Nihoyat, bizda 37 378 ta holat bor
mezon o'rnatish uchun modelimizni loyihalash bo'yicha.
(stackoverflow.com, 2018). Biz Stack Dataset ning faqat tegishli filtrlangan versiyasidan foydalandik
16
tozalashdan keyin. Stack ma'lumotlar to'plami bilan ishlashni tanlaganimizning sababi shundaki,
unda mavjud
Ma'lumotlar to'plami) 15 000 dan ortiq holatlar va ikkita kichik ma'lumotlar to'plami (JTAC ma'lumotlar to'plami va JIRA ma'lumotlar to'plami)
tarmoq bilan bog'liq muammolar. Ushbu ma'lumotlar ramkasida 39 320 ta holat mavjud, bu eng katta ma'lumotlar to'plamidir
bilan ishlash uchun qariyb 5000 holatlar.
KB ma'lumotlar to'plamiga o'xshash texnik savollar. Biroq, Stack ma'lumotlar to'plami go'yo
ustida ishladik. Har bir holat uchun biz faqat yagona savol identifikatorini saqlash uchun maÿlumotlar toÿplamini filtrladik
savol sarlavhasi, savol qismi va javob qismi. Keyin biz filtrlangan ma'lumotlar to'plamini tozaladik
7-rasm: Ma'lumotlar to'plami haqida ma'lumot
Machine Translated by Google
ma'lumotlar to'plami Juniper KB ma'lumotlar to'plamiga tegishli emas edi.
har bir ishning o'ziga xos identifikatori, konspekti va tavsifi mavjud. Xom ma'lumotlar to'plami shovqinli JSON faylida.
etishmayotgan qiymat va shovqinli so'zlar yo'q. Ushbu yo'riqnomaga asoslanib, biz ushbu asosiy bosqichlarni bajardik
ma'lumotlar to'plamlarimizni tozalang:
va har bir maqolaning qisqacha mazmuni. Ushbu ma'lumotlar to'plami faqat ekstraktiv
xulosalar uchun ishlatilgan
To'rtinchidan, JTAC ma'lumotlar to'plami JTAC holatlari haqida ma'lumotni o'z ichiga oladi. Unda 8241 ta holat mavjud va
XML fayllari va har bir XML fayli bitta KB maqola haqidagi ma'lumotlarni o'z ichiga oladi. Treningimiz uchun
tarmoq muammolari bo'yicha savollar va javoblar. Xom ma'lumotlar to'plami 23,989 katalog daraxtida joylashgan
muammolarni kuzatish uchun Atlassian tomonidan ishlab chiqilgan loyihani boshqarish vositasi. JIRA ma'lumotlar to'plamida 5248
ta mavjud
Uchinchidan, biz eng ko'p e'tibor qaratadigan KB ma'lumotlar to'plami texnik ma'lumotlarni o'z ichiga oladi
Nihoyat, JIRA ma'lumotlar to'plami turli loyihalardagi JIRA xatolari haqida. JIRA ommaviydir
Ikkinchidan, Yangiliklar ma'lumotlar to'plami Hindiston yangiliklaridan yangiliklar maqolalarini o'z ichiga olgan ommaviy ma'lumotlar to'plamidir
va ma'lumotlar ramkasidagi har bir KB maqola uchun yechim tanasi. Biz eng yaxshi 30 tasini filtrladik