• 3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling
  • 4 Bag of words-dan foydalaning va tasniflash uchun kalit so‘zlarni (xususiyatlarni) tanlang Hamma sozlarni hisobga olish
  • Xususiyatlarni aniqlash va tuzatish
  • Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo




    Download 0,6 Mb.
    bet2/5
    Sana24.12.2023
    Hajmi0,6 Mb.
    #127865
    1   2   3   4   5
    Bog'liq
    2 amaliy topshiriq Narzikulov Zafarbek

    2 Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo
    Buning uchun biz python dasturlash tilidan foydalanamiz va nltk va skilearn kutubxonasini o’rnatamiz “pip install nltk”, “pip install sklearn”

    Bu kod avval "ma'lumotlar.txt" nomli faylni o'qiydi va uni stop so'zlardan tozalaydi. Keyin ma'lumotlarni o'quv va test to'plamlariga bo'lish uchun train_test_split funksiyasidan foydalanadi. O'quv va test to'plamlarining uzunligi chiqariladi.
    3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling


    kod ma'lumotlarni o'quv (X_train) va test (X_test) to'plamlariga bo'ladigan usulni namoyish etadi. train_test_split funksiyasi ma'lumotlarni istalgan foizdagi o'quv va test to'plamlarga bo'lagan holda qaytaradi. Ushbu funksiya "random_state" parameterini foydalanuvchining baholashlarini qayta yaratishda ishlatadi.
    4 Bag of words-dan foydalaning va tasniflash uchun kalit so‘zlarni (xususiyatlarni) tanlang
    Hamma so'zlarni hisobga olish: BoW modelida barcha ma'lumotlardan barcha so'zlar to'plamini olish.

    Xususiyatlar (kalit so'zlar)ni tanlash: Umumiy ma'lumotlardan kalit so'zlarni aniqlash uchun, umumiy ko'p payt barcha ma'lumotlarning so'zlarini hisobga olish, ammo asosiy ma'lumotlarni belgilab qo'yishdan iborat bo'ladi. Misol uchun, frekans bo'yicha eng ko'p payt ishlatilgan so'zlar tanlanadi.
    Xususiyatlarni aniqlash va tuzatish: Ko'p marta ishlatilgan so'zlar o'zaro bir xil tasnifda bo'lishi mumkin. Bu yerda umumiy ko'p payt ishlatilgan so'zlarni tanlashdan iborat bir qadamdan tashqari, ularga yuqori tartibda ko'rsatilgan ma'lumotlarni yuklab tashlash, o'zgartirish va nazorat qilish ham kerak bo'ladi.
    Bu kodda CountVectorizer ma'lumotlar ustida BoW modelini yaratadi. Ushbu model xususiyatlarni (kalit so'zlar) aniqlaydi va har bir ma'lumotni ularning nechta marta ishlatilganligi bo'yicha tasvir qiladi. MultinomialNB klassifikatori bu xususiyatlarga asoslangan BoW modelini o'rganadi va test ma'lumotlarini baholaydi.

    Download 0,6 Mb.
    1   2   3   4   5




    Download 0,6 Mb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo

    Download 0,6 Mb.