Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar




Download 2,7 Mb.
Pdf ko'rish
bet12/26
Sana20.12.2023
Hajmi2,7 Mb.
#125027
1   ...   8   9   10   11   12   13   14   15   ...   26
Bog'liq
juniper-final (2)

4.1.3 Ma'lumotlarni turkumlashtirish
KB ma'lumotlar to'plamida ba'zi yechim maqolalarida faqat havola yoki nuqta mavjud edi, shuning uchun biz
belgilar raqamlardir va raqamlarning aksariyati "000x" kabi kontekstda ma'nosizdir. Raqamlar
JTAC ma'lumotlar to'plamida deyarli 19% maqolalar mavjud bo'lib, ularning 20% dan ortig'i.
kabi- "MX240", "MX230", "MX" va boshqalar. Bunday holda, toifalar ierarxiyasi aks ettirilishi kerak.
• Ko'p sonli maqolalarni aniqlang va o'chiring.
mavjud KB toifalarining ierarxiyasi. Har bir KB maqola toifalar ro'yxati bilan bog'langan
modellarimizni o'rgatish. Biz ba'zi umumiy ispan tilini qidirib, ispancha maqolalarni aniqladik
• Ikki nusxadagi maqolalarni tekshiring va tozalangan ma'lumotlarni CSV fayliga yozing.
ma'lumotlar Juniper tomonidan ishlatilishi mumkin bo'lgan KB ma'lumotlar to'plamining aniqroq tuzilishiga ega bo'lishi kerak
Treningda kamdan-kam qo'llaniladi va bashoratga ta'sir qilishi mumkin, shuning uchun biz bunday maqolalarni olib tashladik.
"MX240" toifasi "MX" toifasidagi tugun bo'lsin. "MX" - bu mahsulot seriyasining nomi
Juniper, "MX240" esa MX seriyasidagi mahsulot nomidir. KB ni turkumlashdan maqsad
noyob. Nihoyat, biz tozalangan ma'lumotlarni vergul bilan ajratilgan qiymatlar fayliga yozdik.
quyida keltirilgan:
• 10 belgi yoki 3 ta soÿzdan kam boÿlgan maqolalarni aniqlang va oÿchiring.
"de", "la" va "los" kabi so'zlar. Ispancha so'zni o'z ichiga olgan har qanday maqola olib tashlandi.
Shuningdek, biz takroriy ma'lumotlar bor yoki yo'qligini tekshirdik va barcha ma'lumotlar mavjudligini aniqladik
Kelajakdagi ma'lumotlar bilan bog'liq loyihalar uchun tarmoqlar. KB maqolalarini turkumlashning batafsil bosqichlari
Machine Translated by Google


har bir toifa nomining boshi va oxiri. Masalan, “MX240_1” “MX” sifatida qisqartiriladi.
• LCS-ni qo'lda tekshiring va 30 ta munosib toifa nomini tanlang.
toifalar ro'yxatidagi maqsadli 30 toifaga tegishli edi. Biz ierarxiya xaritasini ham yaratdik
barcha KB toifalari, shuning uchun kelajakdagi toifadagi ekstraktsiyalar uchun osonroqdir.
Ma'lumotlarni samarali tasniflash uchun biz raqamlar va pastki chiziqlarni olib tashladik
asosiy tugunga ega bo'lmagan asosiy tugun sifatida qaraladi.
ideal holda, biz toifa faqat "MX" bo'lishini xohladik.
"MX240_1" va "MX240_2" orasida eng uzun umumiy pastki qator "MX240_", holbuki
Ma'noli va ko'plab bolalar tugunlarini o'z ichiga olgan 30 toifa nomlari. Masalan, biz
Bu ma'lumotlarni toifalarga ajratish uchun eng uzun umumiy pastki satrlardan foydalanganimizda foydali bo'ldi, chunki
Barcha umumiy pastki qatorlarni sanab o'tganimizdan so'ng, biz ro'yxatni qo'lda ko'rib chiqdik va tanladik
Biz barcha holatlarda toifalar ro'yxatini ko'rib chiqdik va barcha noyob toifalarni to'pladik
Shunga o'xshash toifa nomlari ketma-ket sanab o'tilganligi sababli, biz butun to'plamni ko'rib chiqdik va
• 30 ta toifaga kiruvchi barcha KB maqolalarni CSV fayliga yozing. ni qurish
20
• Turkum nomlari orasidan eng uzun umumiy pastki satrlar (LCS) roÿyxatini toping.
Juniper-da "MX" va "EX" kabi asosiy mahsulot seriyalarining ba'zi nomlarini tanladik va biz ham tanladik
"SERVER" va "VPN" kabi tarmoq bilan bog'liq ba'zi toifalar.
oldingi satr va uning ketma-ket qatori bilan umumiy pastki qatorga ega bo'lsa, bu satr edi
Oxirgi qadam har qanday toifa nomini o'z ichiga olgan KB maqolalarini chiqarish edi
• Har bir turkum nomidagi raqamlar va pastki chiziqlarni olib tashlang.
to'plam alifbo tartibida tartibga solinadi.
qo'shnilar orasida kamida ikki belgi bilan LCS topildi. Agar ma'lum bir satr bo'lmasa
KB toifalari uchun ierarxiya xaritasi.
Machine Translated by Google



Download 2,7 Mb.
1   ...   8   9   10   11   12   13   14   15   ...   26




Download 2,7 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Tabiiy tilni qayta ishlash yordamida matnni umumlashtirish Ankit Kumar Homiylar

Download 2,7 Mb.
Pdf ko'rish