3. Ma'lumotlar to'plami (ma'lumotlar to'plami)
Ayni paytda ma'lumotlarning katta miqdori ommaga ochiq, mashinani o'rganish uchun ishlatilishi mumkin (ma'lumotlar to'plami = "ma'lumotlar to'plami"). Bu Bu, xususan, yetakchi ilmiy jurnallar maqolalar chop etishda talab qilishi bilan bog‘liq tegishli ma'lumotlar to'plamini nashr etish. Yana bir muhim maqsad – faollashtirish taqqoslash uchun bir xil ma'lumotlar bo'yicha mashinani o'rganish sohasidagi yangi algoritmlarni sinab ko'rish modellarning aniqligiga erishildi. Biroq, yirik kompaniyalar kamdan-kam hollarda ommaga taqdim etiladi ular o'zlarining tijorat texnologik mahsulotlarini yaratadigan ma'lumotlar sun'iy intellekt.
Har holda, ommaviy ma'lumotlar to'plamidagi ma'lumotlar formati kamdan-kam hollarda aniq muayyan loyihada talab qilinadigan narsaga mos keladi. Shunday qilib, birinchi qadam (albatta, mos ma'lumotlar to'plamini topgandan so'ng) ma'lumotlarni tayyorlashdir. Bo'lishi mumkin o'z ichiga oladi:
ma'lumotlarni tozalash: masalan, salbiy kabi noto'g'ri qiymatlarni olib tashlash yoki mijozning haqiqiy bo'lmagan keksaligi,
etishmayotgan qiymatlarni qayta ishlash: masalan, ularni Colab-dagi ma'lumotlar to'plamidan olib tashlash mumkin quyidagicha amalga oshiriladi:
my_dataset = my_dataset.dropna() # удалить из dataset строки с пустыми значениями
Toifalar shkalasida taqdim etilgan ma'lumotlarni o'zgartirish (ko'p hollarda neyron tarmoq modellari raqamli ma'lumotlar bilan ishlaydi): masalan, quyidagilar Colab kodi bitta o'rniga 0/1 qiymatlari bo'lgan 3 xil ustunni yaratadi Ishlab chiqarilgan mamlakatni o'z ichiga olgan MadeIn:
madein = dataset.pop('MadeIn') # удаляем колонку с категориальными данными
dataset['Russia'] = (madein == 1)*1.0
dataset['China'] = (madein == 2)*1.0
dataset['USA'] = (madein == 3)*1.0
dataset.tail()# показать 5 последних строк датасета
mavjud ma'lumotlarni o'quv va test to'plamiga bo'lish: masalan, 0,8:0,2 nisbatda:
train_dataset = dataset.sample(frac=0.8, random_state=0)
test_dataset = dataset.drop(train_dataset.index)
ma'lumotlarni normallashtirish: masalan, buni Colab-da eng oddiy tarzda amalga oshirish - matni olib tashlash. taxminlar va o'rtacha og'ish bo'yicha bo'linish - foydalanish mumkin norm() funktsiyasini amalga oshiradigan va chaqiradigan quyidagi kod:
def norm(x):
return (x - train_stats['mean']) / train_stats['std']
normed_train_data = norm(train_dataset)
normed_test_data = norm(test_dataset)
Ma'lumotlarni tayyorlash uchun tuzilgan ma'lumotlarni vizual taqdim etish va tahrirlash imkonini beruvchi boshqa vositalardan foydalanish mumkin. Masalan, MS Excel ma'lumotlarni turli formatlarda import qilish va ularni csv (vergul bilan ajratilgan qiymatlar) fayllari sifatida saqlashga qodir, keyinchalik ularni Colab-ga osongina yuklash mumkin. Masalan, quyidagi kod foydalanuvchi kompyuterida saqlangan train.csv faylidan ma’lumotlarni yuklash imkonini beradi:
import pandas as pd
from google.colab import files
file = files.upload()
training_set = pd.read_csv("train.csv", header=None) # предполагается, что
файл не содержит заголовков столбцов
Ko'pincha, ma'lumotlarni tayyorlash bosqichida ularni dastlabki o'rganish ham amalga oshiriladi. Masalan, klassik tavsiflovchi statistika vositalari sizga matematik kutish, dispersiya va boshqa xususiyatlarni hisoblash imkonini beradi:
desc_stats = dataset.describe() # подробнее см. документацию функции
desc_stats = desc_stats.transpose() # форматирование выводимых чисел для более удобного чтения
desc_stats
Dastlabki ma'lumotlarni o'rganishning qulay usuli, shuningdek, ularni tegishli formatdagi diagrammalarda grafik tarzda taqdim etishdir. Quyida dengiz kutubxonasida KDE tipidagi diagrammalarni qurish misoli keltirilgan:
sns.pairplot(dataset[["Price", "Area", "Age"]], diag_kind="kde")
|