본격적으로 전력 빅데이터를 분석하기 위해 내가 저장을 원하는 파일의 주소에서 jupyter notebook에 들어왔다.
내가 분석할 자료는 2016년 1월 부터 3월까지의 시간대별 전력소비량이다.
#pandas를 pd라는 이름으로 불러온다.
#as 다음에는 자기가 원하는 어느 이름이나 상관없긴 하지만,
#전세계 사람들이 pandas 의 약자로 pd를 쓴다고 하니 그냥 순응한다.
import pandas as pd
#df: dataframe 의 약자, pandas 를 읽기 위한 변수명
df = pd.read_csv('파일명.csv')
#원하는 개수만 화면 출력 (앞 5개)
df.head(5)
#원하는 개수만 화면 출력 (뒤 5개)
df.tail(5)
각각의 출력값은 다음과 같다.
각종 수치들 확인하기
#자료형 확인
type(df)
#데이터차원, 개수, 크기 확인
df.ndim, df.size, df.shape
ndim 은 dimension 의 약자라고 한다.
#데이터프레임 색인(index) 확인 - 행
df.index
#데이터프레임 열 확인(column)
df.columns
특정 데이터 선택하기
#열 선택
df.Date
df ['Date']
#두개의 열 선택
df[['Date','1']]
#날짜와 1시의 모든 데이터를 표시한다.
: 를 이용하여 나타낼 데이터의 범위를 정할 수 있다.
더보기
: = 모든
:n = 처음부터 n번째까지
n: = n번째부터 끝까지
예를 들어보자.
#행= 모두표시, 열= 처음부터 두개까지만
df.iloc[:,:2]
#행= 모두표시, 열= 22번째부터 끝까지
df.iloc[:,22:]
예제) 하루 전력 소비패턴 그리기
이전 글의 plot 을 이용하여 1월 1일의 전력 소비패턴을 그려볼 수 있다.
import plt.matplotlib.pyplot as plt
plt.plot(df.iloc[0,1:])
plt.xlabel('hour')
plt.ylabel('Power Consumption (Wh)')
plt.title('Power Consumption pattern on 2016-01-01')
plt.show()
심심해서 3개월간 8시의 전력 소비패턴도 구해보았다.
import matplotlib.pyplot as plt
plt.plot(df.iloc[0:,9])
plt.xlabel('days')
plt.ylabel('Power Consumption (Wh)')
plt.title('Power Consumption at 8 on 2016.01~03')
plt.show()
'Bigdata > Energy Bigdata' 카테고리의 다른 글
[pandas] 헤어나오기 힘들었던 오류의 늪 그리고 데이터 시각화 (0) | 2020.12.13 |
---|---|
[Pandas] csv파일 가져오는 것 부터 복습/utf-8 encoding error 해결 (0) | 2020.12.12 |
[빅데이터] 연간/월간/시간당 전력 소비 패턴, 전력 소비 프로파일 작성하기 (3) | 2020.10.06 |
[빅데이터] 결측치, 이상치 분석 (0) | 2020.10.06 |
[빅데이터] 아나콘다 파이썬3.7 개발환경 구축/Cmd에서 가상환경 만들기/주피터노트북 시작하기 (0) | 2020.09.22 |
댓글