Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




Download 2,7 Mb.
Pdf ko'rish
bet11/26
Sana20.12.2023
Hajmi2,7 Mb.
#125027
1   ...   7   8   9   10   11   12   13   14   ...   26
Bog'liq
juniper-final (2)

4.1.2 Ma'lumotlarni tozalash
17
va sinovdan o'tkazishda biz faqat noyob hujjat identifikatorini, sarlavhasini, maqola tegishli bo'lgan toifalar ro'yxatini saqladik
holatlar va har bir holatda o'ziga xos identifikator, xulosa va tavsif mavjud. JTAC ma'lumotlar to'plami bilan bir xil,
xom JIRA ma'lumotlar to'plami ham JSON faylida.
va KB maqolalarining sarlavhalarini taxmin qiling.
belgilar va o'qilmaydigan jumlalar. Samarali trening uchun bizning modellarimizga ma'lumotlar to'plami kerak edi
bizning modelimizni o'rgatish uchun ishlatilishi mumkin bo'lgan maqola. Maqsadlarimiz uchun biz faqat maqola tanasidan foydalandik
15 233 ishni o'z ichiga olgan toifalar. Bizning maqsadimiz KB maqolalarining yechimlaridan kirish sifatida foydalanish edi
veb-saytlar. Biz ushbu maÿlumotlar toÿplamidan foydalandik, chunki maÿlumotlar toÿplami har biri uchun inson tomonidan yaratilgan xulosani oÿz ichiga oladi
Biz ishlagan beshta maÿlumotlar toÿplami juda shovqinli boÿlib, kod parchalarini oÿz ichiga olgan, yaroqsiz
Machine Translated by Google


dataframe ichiga (LXML.de, 2017).
Oxir-oqibat, biz KB maqolalarining deyarli 33 foizida ularda qandaydir kod borligini aniqladik.
KB ma'lumotlar to'plamida 164 ta maqola ispan tilida yozilgan. Bizning loyihamiz faqat diqqat markazida edi
Inglizcha so'zlar va ingliz tilidan tashqaridagi so'zlarga ega bo'lish esa muammolarga olib keladi
Lmxl har bir XML faylini ildizdan har bir elementga o'qish va bizga kerakli ma'lumotlarni saqlash uchun
kiritish satrlaridagi kod teglari va “” va “” teglari orasidagi hamma narsani oÿchirish.
qiymatlar ma'lumotlar ramkalaridan olib tashlandi.
Maqolalarning 5% dan kamrog'i etishmayotgan qiymatlarga ega bo'lganligi sababli, maqolalar etishmayotgan
KB ma'lumotlar to'plamida biz tanib bo'lmaydigan 48,76% so'z borligini aniqladik
• etishmayotgan qiymatlarni tekshiring.
• Barcha matnlarda “&” belgisi boÿlgan nomaÿlum soÿzlarni aniqlang va olib tashlang.
• Maÿlumotlar faylini oÿqing va maÿlumotlar ramkasini yarating
Stack ma'lumotlar to'plami va KB ma'lumotlar to'plamida savolda ko'plab kod qismlari mavjud
To'g'ri otlar maqolalardagi noyob ma'lumotlarni ushlashi mumkin, shuning uchun biz ularni olib tashlamadik.
18
• Barcha matnlardagi kod qismini aniqlang va olib tashlang.
Juniperning so'zini joylashtirish. Noma'lum so'zlarning ba'zilari to'g'ri otlar, lekin ularning ba'zilari
“&npma” soÿzi kabi “&” belgilari bilan boshlangan chalkash va maÿnosiz soÿzlardir. The
kodning xulosasini ushlay olmaydi. Shuning uchun biz kod qismlarini joylashishni aniqlash orqali aniqladik
• Ispancha maqolalarni aniqlang va olib tashlang.
pandalar kutubxonasi. Biroq, KB ma'lumotlar to'plami XML fayllarining katalog daraxtida saqlanadi, shuning uchun biz foydalandik
Stack ma'lumotlari CSV fayllarida va ulardan foydalanish orqali osongina dataframega o'tkazilishi mumkin
va javob organlari. Kod parchalari umumlashtirish modellari kabi muammolarni keltirib chiqaradi
Biroq, biz "&" belgisi bilan boshlangan barcha noma'lum so'zlarni aniqladik va olib tashladik.
Machine Translated by Google


10 belgidan yoki 3 so'zdan kam bo'lgan har qanday maqolani olib tashladi.
Loyihamizdagi maÿlumotlarni turkumlashtirish KB maqolalarini yaratish orqali turkumlashni oÿz ichiga oladi
• Barcha toifalar toÿplamini oling.
19

Download 2,7 Mb.
1   ...   7   8   9   10   11   12   13   14   ...   26




Download 2,7 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

Download 2,7 Mb.
Pdf ko'rish