Bigdata/Energy Bigdata
[빅데이터] 전력 빅데이터 분석 시작하기/주피터 노트북에서 파이썬 코딩
겨울 빛
2020. 9. 22. 13:41
본격적으로 전력 빅데이터를 분석하기 위해 내가 저장을 원하는 파일의 주소에서 jupyter notebook에 들어왔다.
내가 분석할 자료는 2016년 1월 부터 3월까지의 시간대별 전력소비량이다.
#pandas를 pd라는 이름으로 불러온다.
#as 다음에는 자기가 원하는 어느 이름이나 상관없긴 하지만,
#전세계 사람들이 pandas 의 약자로 pd를 쓴다고 하니 그냥 순응한다.
import pandas as pd
#df: dataframe 의 약자, pandas 를 읽기 위한 변수명
df = pd.read_csv('파일명.csv')
#원하는 개수만 화면 출력 (앞 5개)
df.head(5)
#원하는 개수만 화면 출력 (뒤 5개)
df.tail(5)
각각의 출력값은 다음과 같다.
각종 수치들 확인하기
#자료형 확인
type(df)
#데이터차원, 개수, 크기 확인
df.ndim, df.size, df.shape
ndim 은 dimension 의 약자라고 한다.
#데이터프레임 색인(index) 확인 - 행
df.index
#데이터프레임 열 확인(column)
df.columns
특정 데이터 선택하기
#열 선택
df.Date
df ['Date']
#두개의 열 선택
df[['Date','1']]
#날짜와 1시의 모든 데이터를 표시한다.
: 를 이용하여 나타낼 데이터의 범위를 정할 수 있다.
더보기
: = 모든
:n = 처음부터 n번째까지
n: = n번째부터 끝까지
예를 들어보자.
#행= 모두표시, 열= 처음부터 두개까지만
df.iloc[:,:2]
#행= 모두표시, 열= 22번째부터 끝까지
df.iloc[:,22:]
예제) 하루 전력 소비패턴 그리기
이전 글의 plot 을 이용하여 1월 1일의 전력 소비패턴을 그려볼 수 있다.
import plt.matplotlib.pyplot as plt
plt.plot(df.iloc[0,1:])
plt.xlabel('hour')
plt.ylabel('Power Consumption (Wh)')
plt.title('Power Consumption pattern on 2016-01-01')
plt.show()
심심해서 3개월간 8시의 전력 소비패턴도 구해보았다.
import matplotlib.pyplot as plt
plt.plot(df.iloc[0:,9])
plt.xlabel('days')
plt.ylabel('Power Consumption (Wh)')
plt.title('Power Consumption at 8 on 2016.01~03')
plt.show()