Kerakli kutubxonalar. K-yaqin qo'shnilar algoritmini yozish uchun biz

Download 106.64 Kb.
bet	2/4
Sana	04.10.2023
Hajmi	106.64 Kb.
	#86396

1 2 3 4

Bog'liq
laboratoriya mashg\'uloti 3
Ichki ishlar boshqarmasiga, Документ Microsoft Word (2) (Автосохраненный), kompyuter chiqarish, Topshiriq 2, 2 hafta laboratoriya, Дастурлаш 4.1 машгулот (2), 9, 2, SQL 1-lab Umarov Amirjon, Topshiriq 2.05(Texnikum), 1.1, 7.1 машгулот, MB 2-amaliy ish, 5-amaliy, 1-lab Sirqilarga AbstraktMT

Kerakli kutubxonalar. K-yaqin qo'shnilar algoritmini yozish uchun biz NumPy , pandas va scikit-learn kabi ko'plab ochiq manbali Python kutubxonalaridan foydalanamiz .
Quyidagi import bayonotlarini qo'shish bilan boshlang:
NUSHASIYA QILISH
numpy ni np sifatida import qiling
pandalarni pd sifatida import qiling
matplotlib.pyplotni plt sifatida import qiling
dengiz tug'ilganlarni sns sifatida import qilish
% matplotlib inline
Import maʼlumotlar toʻplami
Keyingisi qadam - qo'shish classified_data.csv faylida _ bizning kod Pythonda . Pandalar kutubxonasi DataFrame- ga ma'lumotlarni import qilishni juda oson qiladi .
Ma'lumotlar to'plami csv faylida saqlanganligi sababli , biz read_csv usulidan foydalanamiz :
NUSHASIYA QILISH
raw_data = pd.read_csv ( ' klassified_data.csv')
Olingan DataFrame ni ko'rsatish orqali siz bizning ma'lumotlarimiz qanday ko'rinishini ko'rasiz:

DataFrame satr raqamlariga teng bo'lgan nomsiz ustundan boshlanadi . Buni Python skriptiga maʼlumotlar toʻplamimizni import qilgan buyruqni biroz oʻzgartirish orqali tuzatishimiz mumkin :
raw_data = pd.read_csv ('classified_data.csv', index_col = 0)
ma'lumotlar to'plamidagi ko'rsatkichlarni (xususiyatlarni) ko'rib chiqaylik . Ustun nomlarini quyidagi bayonot bilan ro'yxatga olishingiz mumkin:
raw_data.columns _
Biz olamiz:
Indeks ( ['WTT', 'PTI', 'EQW', 'SBI', 'LQE', 'QWG', 'FDJ', 'PJF', 'HQE', 'NXJ',
"maqsadli sinf"],
dtype = ' ob'ekt ')
Ushbu to'plam maxfiy ma'lumotlarni o'z ichiga olganligi sababli, biz ushbu ustunlar nimani anglatishini bilmaymiz. Hozircha har bir ustun raqamli xususiyatga ega ekanligini va shuning uchun mashinani o'rganish usullaridan foydalangan holda modellashtirish uchun juda mos ekanligini tan olish kifoya.
Ma'lumotlar to'plamini standartlashtirish
ma'lumotlar to'plamidagi mavjud ko'rsatkichlar shkalasi muhim ahamiyatga ega.
Shu sababli, mashinani o'rganish bo'yicha mutaxassislar odatda ma'lumotlar to'plamini standartlashtiradi, bu har bir x qiymatini taxminan bir xil diapazonda bo'lishi uchun sozlashni anglatadi.
Yaxshiyamki, scikit-learn kutubxonasi buni juda ko'p muammosiz bajarishga imkon beradi.
scikit-learn dan StandardScaler sinfini import qilishimiz kerak . Buning uchun Python skriptingizga quyidagi buyruqni qo'shing :
dan sklearn.preprocessing Import StandardScaler
Ushbu sinf ko'p jihatdan biz ushbu kursda ilgari foydalangan LinearRegression va LogisticRegression sinflariga o'xshaydi . Biz StandardScaler misolini yaratishimiz va keyin ma'lumotlarimizni o'zgartirish uchun ushbu ob'ektdan foydalanishimiz kerak.
quyidagi bayonot bilan scaler nomli StandardScaler sinfining namunasini yaratamiz :
skaler = StandardScaler ( )
mos usuli yordamida ma'lumotlar to'plamimizdagi skalerni o'rgatishimiz mumkin :
scaler.fit ( raw_data.drop ('MAQSADLI SINF', eksa=1))
Endi biz barcha xususiyatlarni taxminan bir xil masshtabga ega bo'lishi uchun standartlashtirish uchun transform usulidan foydalanishimiz mumkin. Biz saqlaylik aylantirildi namunalar V o'zgaruvchan scaled_features :
scaled_features = scaler.transform ( raw_data.drop ('MAQSADLI SINF', eksa = 1))
Natijada, biz ma'lumotlar to'plamidagi barcha ma'lumotlar nuqtalari bilan NumPy massivini oldik, lekin biz uni pandalar kutubxonasining DataFrame formatiga aylantirmoqchimiz .
Yaxshiyamki, buni qilish juda oson. Biz shunchaki scaled_features o‘zgaruvchisini pd.DataFrame usuliga o‘rab olamiz va ushbu DataFrameni ustun nomlarini belgilash uchun tegishli argument bilan yangi scaled_data o‘zgaruvchisiga tayinlaymiz:
scaled_data = pd.DataFrame ( scaled_features , ustunlar = raw_data.drop ('TARGET CLASS', eksa = 1).ustunlar)
ma'lumotlar to'plamimizni import qildik va uning ko'rsatkichlarini standartlashtirdik, biz ushbu ma'lumotlar to'plamini o'quv va test to'plamlariga bo'lishga tayyormiz.

Download 106.64 Kb.

1 2 3 4

Download 106.64 Kb.