• 4.1 Malumotlar toplamini tanlang va tozalang
  • Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




    Download 2,7 Mb.
    Pdf ko'rish
    bet10/26
    Sana20.12.2023
    Hajmi2,7 Mb.
    #125027
    1   ...   6   7   8   9   10   11   12   13   ...   26
    Bog'liq
    juniper-final (2)

    4.0 Metodologiya
    2-qadam: Ekstraksiyani umumlashtirish modelini yarating
    4.1.1 Ma'lumotlar to'plami haqida ma'lumot
    15
    1-qadam: Ma'lumotlar to'plamini tanlang va tozalang
    ma'lumotlarni tozalash va tasniflash bosqichlari.
    5-qadam: mavhum umumlashtirish modelini sozlang
    4-qadam: Turli ma'lumotlar to'plamlarida modellarni sinab ko'ring va taqqoslang
    maqolalar maÿlumotlar toÿplami (News Dataset), Juniper Knowledge Base maÿlumotlar toÿplami (KB Dataset), Juniper
    3-qadam: mavhum umumlashtirish modelini yarating
    Biz beshta ma'lumotlar to'plamida ishladik - StackOverflow ma'lumotlar to'plami (Stack Dataset), yangiliklar
    Yangiliklar ma'lumotlar to'plami allaqachon tozalangan, biz birinchi navbatda qolgan to'rtta ma'lumotlar to'plamini tozalashga e'tibor qaratdik.
    6-qadam: Oxir-oqibat dasturni yarating
    Texnik yordam markazi ma'lumotlar to'plami (JTAC ma'lumotlar to'plami) va JIRA ma'lumotlar to'plami. Har bir ma'lumotlar to'plamidan iborat
    har bir ish maqola, xulosa yoki sarlavhadan iborat bo'lgan ko'p hollarda. Xom bo'lganidan beri
    ma'lumotlar to'plamining mazmuni va ma'lumotlar to'plamidan foydalanish sababi. 4.1.2 va 4.1.3 bo'limlari ichiga sho'ng'idi
    rasmda ma'lumotlar to'plamini tozalashdan so'ng bizda ikkita katta ma'lumotlar to'plami (Stack Dataset va KB) bor edi.
    Juniper ma'lumotlar to'plamidagi ilovalar. Maqsadga erishish uchun biz quyidagi bosqichlarni bajardik:
    Ushbu loyihaning maqsadi avtomatik matnni umumlashtirishni o'rganish va uni tahlil qilishdir
    4.1.1 bo'limida biz foydalangan har bir ma'lumotlar to'plami haqida asosiy ma'lumotlar, aniqrog'i
    Quyidagi 7-rasmda ma'lumotlarni tozalashdan oldin va keyin ma'lumotlar to'plami hajmidagi o'zgarishlar ko'rsatilgan. Ko'rsatilganidek
    4.1 Ma'lumotlar to'plamini tanlang va tozalang
    Machine Translated by Google


    Stack Dataset - bu StackOverflow veb-saytidagi savollar va javoblar to'plami
    KB ma'lumotlar to'plamiga qaraganda tozaroq va modellarimizni tozaroq ma'lumotlar to'plamida ishga tushirish orqali biz birinchi navbatda diqqatni jamlashimiz mumkin
    kod qismlarini, inglizcha bo'lmagan maqolalarni va qisqa maqolalarni olib tashlash. Nihoyat, bizda 37 378 ta holat bor
    mezon o'rnatish uchun modelimizni loyihalash bo'yicha.
    (stackoverflow.com, 2018). Biz Stack Dataset ning faqat tegishli filtrlangan versiyasidan foydalandik
    16
    tozalashdan keyin. Stack ma'lumotlar to'plami bilan ishlashni tanlaganimizning sababi shundaki, unda mavjud
    Ma'lumotlar to'plami) 15 000 dan ortiq holatlar va ikkita kichik ma'lumotlar to'plami (JTAC ma'lumotlar to'plami va JIRA ma'lumotlar to'plami)
    tarmoq bilan bog'liq muammolar. Ushbu ma'lumotlar ramkasida 39 320 ta holat mavjud, bu eng katta ma'lumotlar to'plamidir
    bilan ishlash uchun qariyb 5000 holatlar.
    KB ma'lumotlar to'plamiga o'xshash texnik savollar. Biroq, Stack ma'lumotlar to'plami go'yo
    ustida ishladik. Har bir holat uchun biz faqat yagona savol identifikatorini saqlash uchun maÿlumotlar toÿplamini filtrladik
    savol sarlavhasi, savol qismi va javob qismi. Keyin biz filtrlangan ma'lumotlar to'plamini tozaladik
    7-rasm: Ma'lumotlar to'plami haqida ma'lumot
    Machine Translated by Google


    ma'lumotlar to'plami Juniper KB ma'lumotlar to'plamiga tegishli emas edi.
    har bir ishning o'ziga xos identifikatori, konspekti va tavsifi mavjud. Xom ma'lumotlar to'plami shovqinli JSON faylida.
    etishmayotgan qiymat va shovqinli so'zlar yo'q. Ushbu yo'riqnomaga asoslanib, biz ushbu asosiy bosqichlarni bajardik
    ma'lumotlar to'plamlarimizni tozalang:
    va har bir maqolaning qisqacha mazmuni. Ushbu ma'lumotlar to'plami faqat ekstraktiv xulosalar uchun ishlatilgan
    To'rtinchidan, JTAC ma'lumotlar to'plami JTAC holatlari haqida ma'lumotni o'z ichiga oladi. Unda 8241 ta holat mavjud va
    XML fayllari va har bir XML fayli bitta KB maqola haqidagi ma'lumotlarni o'z ichiga oladi. Treningimiz uchun
    tarmoq muammolari bo'yicha savollar va javoblar. Xom ma'lumotlar to'plami 23,989 katalog daraxtida joylashgan
    muammolarni kuzatish uchun Atlassian tomonidan ishlab chiqilgan loyihani boshqarish vositasi. JIRA ma'lumotlar to'plamida 5248 ta mavjud
    Uchinchidan, biz eng ko'p e'tibor qaratadigan KB ma'lumotlar to'plami texnik ma'lumotlarni o'z ichiga oladi
    Nihoyat, JIRA ma'lumotlar to'plami turli loyihalardagi JIRA xatolari haqida. JIRA ommaviydir
    Ikkinchidan, Yangiliklar ma'lumotlar to'plami Hindiston yangiliklaridan yangiliklar maqolalarini o'z ichiga olgan ommaviy ma'lumotlar to'plamidir
    va ma'lumotlar ramkasidagi har bir KB maqola uchun yechim tanasi. Biz eng yaxshi 30 tasini filtrladik

    Download 2,7 Mb.
    1   ...   6   7   8   9   10   11   12   13   ...   26




    Download 2,7 Mb.
    Pdf ko'rish

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

    Download 2,7 Mb.
    Pdf ko'rish