dataframe ichiga (LXML.de, 2017).
Oxir-oqibat, biz KB maqolalarining deyarli 33 foizida ularda qandaydir kod borligini aniqladik.
KB ma'lumotlar to'plamida 164 ta maqola ispan tilida yozilgan. Bizning loyihamiz faqat diqqat markazida edi
Inglizcha so'zlar va ingliz tilidan tashqaridagi so'zlarga ega bo'lish esa muammolarga olib keladi
Lmxl har bir XML faylini ildizdan har bir elementga o'qish va bizga kerakli ma'lumotlarni
saqlash uchun
kiritish satrlaridagi kod teglari va “
” va “
” teglari orasidagi hamma narsani oÿchirish.
qiymatlar ma'lumotlar ramkalaridan olib tashlandi.
Maqolalarning 5% dan kamrog'i etishmayotgan qiymatlarga ega bo'lganligi sababli, maqolalar etishmayotgan
KB ma'lumotlar to'plamida biz tanib bo'lmaydigan 48,76% so'z borligini aniqladik
• etishmayotgan qiymatlarni tekshiring.
• Barcha matnlarda “&” belgisi boÿlgan nomaÿlum soÿzlarni aniqlang va olib tashlang.
• Maÿlumotlar faylini oÿqing va maÿlumotlar
ramkasini yarating
Stack ma'lumotlar to'plami va KB ma'lumotlar to'plamida savolda ko'plab kod qismlari mavjud
To'g'ri otlar maqolalardagi noyob ma'lumotlarni ushlashi mumkin, shuning uchun biz ularni olib tashlamadik.
18
• Barcha matnlardagi kod qismini aniqlang va olib tashlang.
Juniperning so'zini joylashtirish. Noma'lum so'zlarning ba'zilari to'g'ri otlar, lekin ularning ba'zilari
“&npma” soÿzi kabi “&” belgilari bilan boshlangan chalkash va maÿnosiz soÿzlardir. The
kodning xulosasini ushlay olmaydi. Shuning uchun biz kod qismlarini joylashishni
aniqlash orqali aniqladik
• Ispancha maqolalarni aniqlang va olib tashlang.
pandalar kutubxonasi. Biroq, KB ma'lumotlar to'plami XML fayllarining katalog daraxtida saqlanadi, shuning uchun biz foydalandik
Stack ma'lumotlari CSV fayllarida va ulardan foydalanish orqali osongina dataframega o'tkazilishi
mumkin
va javob organlari. Kod parchalari umumlashtirish modellari kabi muammolarni keltirib chiqaradi
Biroq, biz "&" belgisi bilan boshlangan barcha noma'lum so'zlarni aniqladik va olib tashladik.
Machine Translated by Google
10 belgidan yoki 3 so'zdan kam bo'lgan har qanday maqolani olib tashladi.
Loyihamizdagi maÿlumotlarni turkumlashtirish KB maqolalarini yaratish orqali turkumlashni oÿz ichiga oladi
• Barcha toifalar toÿplamini oling.
19