import pandas as pd
data = {'Дата': ['2023-01-01', '2023-02-01', '2023-03-01', '2023-04-01', '2023-05-01'],
'Продажи': [1000, 1200, 1300, 1100, 1400]}
df = pd.DataFrame(data)
# Преобразуем столбец 'Дата' в формат даты
df['Дата'] = pd.to_datetime(df['Дата'])
print(df)
Natija quyidagicha bo'ladi:
Дата Продажи
0 2023-01-01 1000
1 2023-02-01 1200
2 2023-03-01 1300
3 2023-04-01 1100
4 2023-05-01 1400
Endi bizda savdo ma'lumotlariga ega DataFrame va turidagi "Sana" ustuni mavjud datetime64. Bu bizga ma'lumotlarni sana bo'yicha tanlash yoki vaqt oraliqlarini hisoblash kabi turli operatsiyalarni bajarishga imkon beradi.
Misol:
# Выбор данных по диапазону дат
subset = df[(df['Дата'] >= '2023-03-01') & (df['Дата'] <= '2023-04-30')]
print(subset)
Xulosa:
Дата Продажи
2 2023-03-01 1300
3 2023-04-01 1100
Shunday qilib, pandalarda sana va vaqtlar bilan ishlash bizga vaqt seriyalari ma'lumotlarini osongina filtrlash va tahlil qilish imkonini beradi.
Yo'qolgan qiymatlarni qayta ishlash
Vaqt seriyalari ma'lumotlari bilan ishlashda etishmayotgan qiymatlar odatiy holdir. Ular turli sabablarga ko'ra paydo bo'lishi mumkin, masalan, ma'lumotlarni yig'ishdagi xatolar yoki o'lchovlardagi vaqtinchalik uzilishlar tufayli. Shuning uchun, etishmayotgan qiymatlarni qanday boshqarishni bilish muhimdir.
Keling, pandalar yordamida DataFrame-da etishmayotgan qiymatlarni qanday boshqarishimiz mumkinligini ko'rib chiqaylik. Masalan, bizda quyidagi ma'lumotlar to'plami bor deylik :
import pandas as pd
data = {'Дата': ['2023-01-01', '2023-02-01', '2023-03-01', '2023-04-01', '2023-05-01'],
'Продажи': [1000, None, 1300, 1100, 1400]}
df = pd.DataFrame(data)
# Преобразуем столбец 'Дата' в формат даты
df['Дата'] = pd.to_datetime(df['Дата'])
print(df)
Natija:
Дата Продажи
0 2023-01-01 1000.0
1 2023-02-01 NaN
2 2023-03-01 1300.0
3 2023-04-01 1100.0
4 2023-05-01 1400.0
Ko'rib turganingizdek, bizda "Sotish" ustunida etishmayotgan qiymat ( NaN ). Bunday qiymatlarni qayta ishlashning bir necha usullari mavjud:
|