|
Kataloglarni o‘rnating va test ma’lumotlarini oling
|
bet | 126/182 | Sana | 19.05.2024 | Hajmi | 5,69 Mb. | | #244351 |
Bog'liq Python sun\'iy intellekt texnologiyasi Dasrlik 2024Kataloglarni o‘rnating va test ma’lumotlarini oling
Data.gov ochiq maʼlumotlar uchun hukumat portali boʻlib, Indiana shtatining Bloomington shahri u yerda bir qancha maʼlumotlar toʻplamini taqdim etadi.
Biz 2016 yil uchun trafik iqtiboslari ma’lumotlaridan foydalanamiz.
Boshlash uchun keling, ushbu loyiha uchun alohida katalog yaratamiz va CSV ma’lumotlarini yuklab olamiz:
$ cd ~/projects/i524
$ mkdir btown-citations
$ cd btown-citations
$ wget https://data.bloomington.in.gov/dataset/c543f0c1-1e37-46ce-a0ba-e0a949bd248a/resource/24841976-fd35-4483-a2b4-573bd1e77cfb/download/2016-first-quarter-citations.csv
Katalog tashkilotingizga qarab, yuqoridagilar siz uchun biroz farq qilishi mumkin.
Yuqoridagi Bloomington uchun data.gov havolasiga kirsangiz, iqtiboslar ma’lumotlari har chorakda tashkil etilganligini ko‘rasiz, shuning uchun jami to‘rtta fayl mavjud. Yuqorida biz birinchi chorak uchun ma’lumotlarni yuklab oldik. Davom eting va qolgan uchta faylni bilan yuklab oling wget.
Ushbu misolda biz uchta moduldan foydalanamiz numpy, pandas va matplotlib. Agar siz Python qo‘llanmasida virtualenv tasvirlanganidek sozlagan bo‘lsangiz, ulardan birinchi ikkitasi siz uchun allaqachon o‘rnatilgan. Oʻrnatish uchun faollashtirilganligiga ishonch hosil qiling va quyidagini ishlating :matplotlib virtualenv pip
$ source ~/ENV/bin/activate
$ pip install matplotlib
Agar siz Python-ning boshqa tarqatilishidan foydalanayotgan bo‘lsangiz, ushbu modullarning uchtasi ham o‘rnatilganligiga ishonch hosil qilishingiz kerak bo‘ladi.
Pandasga ma’lumotlarni yuklash
Siz iqtiboslar ma’lumotlarini saqlagan katalogdan Python tarjimonini ishga tushiramiz va 2016 yil 1-chorak uchun iqtiboslar ma’lumotlarini yuklaymiz
$ python
>>> from __future__ import division, print_function
>>> import numpy as np
>>> import pandas as pd
>>> import matplotlib.pyplot as plt
>>> data = pd.read_csv('2016-first-quarter-citations.csv')
Agar birinchi bayonot chalkash bo‘lib tuyulsa, Python qo‘llanmasini import ko‘rib chiqish. Keyingi uchta bayonot biz ushbu misolda ishlatadigan modullarning har birini yuklaydi. Yakuniy qator ma’lumotlarni Pandas ma’lumotlar strukturasiga yuklash uchun Pandas funksiyasidan foydalanadi.
Maydondan ko‘rinib turibdiki columns, CSV fayli o‘qilganda, sarlavha chizig’i ustunlar nomini to‘ldirish uchun ishlatilgan DataFrame. Bundan tashqari, Ageread_csv kabi ba’zi ustunlar uchun ma’lumotlar turi to‘g’ri chiqarilganligini, lekin Chiqarilgan sana va Chiqarilgan vaqt kabi boshqa ustunlar emasligini ko‘rasiz, juda moslashtirilgan funksiya va umuman, va parametrlari yordamida bu kabi muammolarni tuzatishingiz mumkin. Bunday holda, Chiqarilgan sana va Chiqarilgan vaqt ustunlarini vaqt tamg’asini o‘z ichiga olgan yangi ustunga birlashtirish mantiqiyroq. Buni qanday qilishni tez orada ko‘rib chiqamiz.read_csvdtypeconverters
DataFrame Shuningdek, ma’lumotlarning o‘ziga 's head() va tail() usullar bilan qarashingiz mumkin :
|
| |