Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo

Download 111,07 Kb.
bet	2/4
Sana	07.12.2023
Hajmi	111,07 Kb.
	#113353

1 2 3 4

Bog'liq
iqtisodiyot

3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling

2 Matn ustida dastlabki ishlov berish amallarini bajaring, masalan, stop so‘zlarni olib tashlang, bosh harflarni quyi registrga almashtiring va hokazo
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
nltk.download('stopwords')
nltk.download('punkt')
with open('ma'lumotlar.txt', 'r', encoding='utf-8') as file:
ma'lumotlar = file.readlines()
stop_words = set(stopwords.words('uzbek'))
ma'lumotlar_tayyor = []
for ma'lumot in ma'lumotlar:
words = word_tokenize(ma'lumot)
filtered_words = [word.lower() for word in words if word.isalpha() and word.lower() not in stop_words]
ma'lumotlar_tayyor.append(' '.join(filtered_words))
X_train, X_test = train_test_split(ma'lumotlar_tayyor, test_size=0.2, random_state=42)
print("O'quv to'plami uzunligi:", len(X_train))
print("Test to'plami uzunligi:", len(X_test))
Bu kod avval "ma'lumotlar.txt" nomli faylni o'qiydi va uni stop so'zlardan tozalaydi. Keyin ma'lumotlarni o'quv va test to'plamlariga bo'lish uchun train_test_split funksiyasidan foydalanadi. O'quv va test to'plamlarining uzunligi chiqariladi.
3 Ma’lumotlarni o‘quv va test to‘plamlariga bo‘ling
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
nltk.download('stopwords')
nltk.download('punkt')
with open('ma'lumotlar.txt', 'r', encoding='utf-8') as file:
ma'lumotlar = file.readlines()
stop_words = set(stopwords.words('uzbek'))
ma'lumotlar_tayyor = []
for ma'lumot in ma'lumotlar:
words = word_tokenize(ma'lumot)
filtered_words = [word.lower() for word in words if word.isalpha() and word.lower() not in stop_words]
ma'lumotlar_tayyor.append(' '.join(filtered_words))
X_train, X_test = train_test_split(ma'lumotlar_tayyor, test_size=0.2, random_state=42)
print("O'quv to'plami uzunligi:", len(X_train))
print("Test to'plami uzunligi:", len(X_test))
kod ma'lumotlarni o'quv (X_train) va test (X_test) to'plamlariga bo'ladigan usulni namoyish etadi. train_test_split funksiyasi ma'lumotlarni istalgan foizdagi o'quv va test to'plamlarga bo'lagan holda qaytaradi. Ushbu funksiya "random_state" parameterini foydalanuvchining baholashlarini qayta yaratishda ishlatadi.

Download 111,07 Kb.

1 2 3 4

Download 111,07 Kb.