• 3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling
  • Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo




    Download 111,07 Kb.
    bet2/4
    Sana07.12.2023
    Hajmi111,07 Kb.
    #113353
    1   2   3   4
    Bog'liq
    iqtisodiyot

    2 Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo
    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    from sklearn.model_selection import train_test_split
    nltk.download('stopwords')
    nltk.download('punkt')
    with open('ma'lumotlar.txt', 'r', encoding='utf-8') as file:
    ma'lumotlar = file.readlines()
    stop_words = set(stopwords.words('uzbek'))
    ma'lumotlar_tayyor = []
    for ma'lumot in ma'lumotlar:
    words = word_tokenize(ma'lumot)
    filtered_words = [word.lower() for word in words if word.isalpha() and word.lower() not in stop_words]
    ma'lumotlar_tayyor.append(' '.join(filtered_words))
    X_train, X_test = train_test_split(ma'lumotlar_tayyor, test_size=0.2, random_state=42)
    print("O'quv to'plami uzunligi:", len(X_train))
    print("Test to'plami uzunligi:", len(X_test))
    Bu kod avval "ma'lumotlar.txt" nomli faylni o'qiydi va uni stop so'zlardan tozalaydi. Keyin ma'lumotlarni o'quv va test to'plamlariga bo'lish uchun train_test_split funksiyasidan foydalanadi. O'quv va test to'plamlarining uzunligi chiqariladi.
    3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling
    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    from sklearn.model_selection import train_test_split
    nltk.download('stopwords')
    nltk.download('punkt')
    with open('ma'lumotlar.txt', 'r', encoding='utf-8') as file:
    ma'lumotlar = file.readlines()
    stop_words = set(stopwords.words('uzbek'))
    ma'lumotlar_tayyor = []
    for ma'lumot in ma'lumotlar:
    words = word_tokenize(ma'lumot)
    filtered_words = [word.lower() for word in words if word.isalpha() and word.lower() not in stop_words]
    ma'lumotlar_tayyor.append(' '.join(filtered_words))
    X_train, X_test = train_test_split(ma'lumotlar_tayyor, test_size=0.2, random_state=42)
    print("O'quv to'plami uzunligi:", len(X_train))
    print("Test to'plami uzunligi:", len(X_test))
    kod ma'lumotlarni o'quv (X_train) va test (X_test) to'plamlariga bo'ladigan usulni namoyish etadi. train_test_split funksiyasi ma'lumotlarni istalgan foizdagi o'quv va test to'plamlarga bo'lagan holda qaytaradi. Ushbu funksiya "random_state" parameterini foydalanuvchining baholashlarini qayta yaratishda ishlatadi.

    Download 111,07 Kb.
    1   2   3   4




    Download 111,07 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo

    Download 111,07 Kb.