|
Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo
|
bet | 2/4 | Sana | 07.12.2023 | Hajmi | 111,07 Kb. | | #113353 |
Bog'liq iqtisodiyot2 Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
nltk.download('stopwords')
nltk.download('punkt')
with open('ma'lumotlar.txt', 'r', encoding='utf-8') as file:
ma'lumotlar = file.readlines()
stop_words = set(stopwords.words('uzbek'))
ma'lumotlar_tayyor = []
for ma'lumot in ma'lumotlar:
words = word_tokenize(ma'lumot)
filtered_words = [word.lower() for word in words if word.isalpha() and word.lower() not in stop_words]
ma'lumotlar_tayyor.append(' '.join(filtered_words))
X_train, X_test = train_test_split(ma'lumotlar_tayyor, test_size=0.2, random_state=42)
print("O'quv to'plami uzunligi:", len(X_train))
print("Test to'plami uzunligi:", len(X_test))
Bu kod avval "ma'lumotlar.txt" nomli faylni o'qiydi va uni stop so'zlardan tozalaydi. Keyin ma'lumotlarni o'quv va test to'plamlariga bo'lish uchun train_test_split funksiyasidan foydalanadi. O'quv va test to'plamlarining uzunligi chiqariladi.
3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
nltk.download('stopwords')
nltk.download('punkt')
with open('ma'lumotlar.txt', 'r', encoding='utf-8') as file:
ma'lumotlar = file.readlines()
stop_words = set(stopwords.words('uzbek'))
ma'lumotlar_tayyor = []
for ma'lumot in ma'lumotlar:
words = word_tokenize(ma'lumot)
filtered_words = [word.lower() for word in words if word.isalpha() and word.lower() not in stop_words]
ma'lumotlar_tayyor.append(' '.join(filtered_words))
X_train, X_test = train_test_split(ma'lumotlar_tayyor, test_size=0.2, random_state=42)
print("O'quv to'plami uzunligi:", len(X_train))
print("Test to'plami uzunligi:", len(X_test))
kod ma'lumotlarni o'quv (X_train) va test (X_test) to'plamlariga bo'ladigan usulni namoyish etadi. train_test_split funksiyasi ma'lumotlarni istalgan foizdagi o'quv va test to'plamlarga bo'lagan holda qaytaradi. Ushbu funksiya "random_state" parameterini foydalanuvchining baholashlarini qayta yaratishda ishlatadi.
|
|
Bosh sahifa
Aloqalar
Bosh sahifa
Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo
|