JOURNAL OF NEW CENTURY INNOVATIONS
http://www.newjournal.org/
Volume–22_Issue-2_February_2023
166
X- obyektlar to’plami
Y- javoblar to’plami
y:X->Y no’malum bog’liqlik esa target function(maqsad funksiya) deyiladi.
Berilgan: {x1, . . . , xℓ } X — o’qtiluvchi to’plam(training sample) yi = y (xi ), i = 1, .
. . , ℓ — ma’lum javoblar Demak o’qitish masalasi deganda a : X → Y moslikni xal
qilivchi algoritmga yo'naltiriladi.
Mashinani o’qitish jarayoni bosqichlari
• Mashinani o’qitish jarayoni chiziqli yoki nochiziqli bo’lishiga qaramasdan quyidagi
bosqichlarda amalga oshiriladi:
• Muammoni aniqlash.
• Ma’lumotlarni tayyorlash.
• Algoritmni ishlab chiqish va baholash (testlash).
• Natijaviy ma’lumotlar aniqligini oshirish.
• Yakuniy natijani (ishlab chiqilgan model) taqdim qilish.
O’qituvchili o’qitish algoritmlari
Linear Regression
Nearest Neighbor
Gaussian Naive Bayes
Decision Trees
Support Vector Machine (SVM)
Random Forest
Ma’lumotlar to’plami (Data set)
Data set
- bu o’qitish uchun kerakli bo’lgan ma'lumotlar to'plamidir.
Boshqacha
aytganda, ma'lumotlar to'plami ma'lumotlar bazasi jadvalining
yoki bitta statistik
ma'lumotlar matritsasining
qiymatlarini hisoblanib, bunda
jadvalning har bir ustuni
ma'lum o'zgaruvchini yoki parametr (x1,x2,....,xn) qiymatini ifodalasa, har bir satr esa
berilgan parametrlar asosidagi obyekt qiymatiga (X1,X2,....,XN) to'g'ri keladi.
Machine Learning
loyihalarida biz o'quv ma'lumotlari to'plamidan (training data set)
foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni o’qitish
uchun
ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi. Mashinani o’qitish jarayonida
va modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami
turlaridan foydalaniladi:
• o’qituvchi to’plam, o’quv tanlanma (training set);
• validatsiya to’plami (validation set);
• testlash to’plami (testing set).
Ma’lumotlarga dastlabki ishlov berish Ma’lumotlar turini belgilash (Format):
O’qituvchi to’plamdagi ma’lumotlar turi va toifasini moslashtirish (Misol uchun,
o’qitiluvchi to’plam sifatida 100 t rasm olingan bo’lsin, rasmlar har xil o’lchamda yoki
har xil fayl formatida bo’lishi mumkin).
Ma’lumotlarni tozalash (Data Cleaning): Ushbu bosqichda ma’lumotlar
orasidan ortiqcha yoki ahamiyati past bo’lgan (masalan, sifati juda past bo’lgan
tasvirlar, o’lchami juda kichik bo’lgan rasmlar), model turg’unligiga ta’sir
qiluvchi
ma’lumotlar olib tashlanadi. Xususiyatlarni ajratib olish (Feature Extraction): Ushbu
bosqichda o’qituvchi to’plamdagi ma’lumotlar xususiyatlari o’rganib
chiqiladi va