본문 바로가기
[pandas] 헤어나오기 힘들었던 오류의 늪 그리고 데이터 시각화 와우. 방금 약 1시간 반동안 어이없는걸로 컴퓨터와 싸우다 돌아옴 아니 이런그래프 본적 있으신가여? 대환장 y축 의미가 없는 그래프 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 아니 다른 csv파일은 데이터 시각화 이렇게만 잘되는데 저 위에 이상한 그래프는 뭐냐구여? 아오............... 이것때매 한시간 반동안 온갖 고민과 빡침과 고통을 다 겪었다 데이터 시각화 뿐만 아니라 열끼리 덧셈도 안되는거임 하...........개빡 근데 이유가 얼탱이가 없다는게 킬포다. 이유인 즉슨.......... 쉼표 때문이다 그 천의자리 구분하는 그 쉼표 ㅇㅇ ^^................... 2020. 12. 13.
[Pandas] csv파일 가져오는 것 부터 복습/utf-8 encoding error 해결 할일 계속 밀려서 종강하고 쓰려 그랬는데 개념이 정리가 안돼서 도저히 기말 발표 준비를 할 수가 없다. 그래서 조금씩 처음부터 다시 써야겠다 😥 내가 기말발표로 분석할 자료는 이 데이터다 국가에너지통계종합정보시스템(https://www.kesis.net) 에서 가져왔고, 이 CSV파일을 분석하는 이유는,, 주제가 에너지전환이기 때문이다! 중간발표때 기말때 이 주제로 발표하겠다고 미리 계획해두긴 했지만 얼마전에 발표한 2050탄소중립선언 덕분에 (실시간 라이브 본거 자랑.) 운좋게(?) 에너지전환 데이터 분석할 명분 한 가지 더 생김 1차 에너지 공급 자료에는 1차 에너지원별 연도별 공급량(단위: toe)이 1981년도부터 나와있어서 분석하게 되면 약 30년간의 공급량 변화추이를 알 수 있다. 근데 처음으.. 2020. 12. 12.
[빅데이터] 연간/월간/시간당 전력 소비 패턴, 전력 소비 프로파일 작성하기 이번 실습에서는 2016년 1월 1일부터 12월 31일까지의 시간에 따른 전력소비량의 엑셀파일을 분석한다이거야말로 BIGGGGGGGGG데이터 ㅎ 요렇게 생겨먹은 빅데이터를 stack 함수를 이용하여 세로로 길게(?) 출력한다#df2를 세로로 쌓은 함수를 ts라고 정의할 것 ts = df2.stack() ts 인덱스의 색인도 변경한다.#색인 변경 ts.index=pd.date_range('2016-01-01 00:00:00','2016-12-31 23:00:00',freq= '1h')1/1 0시부터 12/31 23시까지 1시간 단위로 자른 값으로 사용한다. 이제 본격적으로 전력 소비 패턴을 분석한다. 1. 연간 전력 소비 패턴plt.figure(figsize=(15,4)) ts.plot() plt.xlab.. 2020. 10. 6.
[빅데이터] 결측치, 이상치 분석 결측치 분석에 앞서 cmd창의 가상공간에서 missingno 패키지를 깔고import missingno as msno 로 불러온다 그 후, 데이터에 임의로 난값을 추가한 뒤 결측치 분석을 시작하겠다.#numpy 임포트 # - 산술 연산, 행렬 연산 import numpy as np #난값(NaN, Not a Number) 발생 from numpy import nan as NA #임의로 난값 추가 df2.iloc[1,1]=NA df2.head()1,1에 난값 추가 아예 난값이 있는 행과 열을 제거해보겠다.#결측치 삭제: 행 삭제 df2.dropna().head() 난수가 존재하는 2016-01-02의 행이 통째로 사라진 것을 확인 할 수 있다. #결측치 삭제: 열 삭제 df2.dropna(axis=1).h.. 2020. 10. 6.
[빅데이터] 전력 빅데이터 분석 시작하기/주피터 노트북에서 파이썬 코딩 본격적으로 전력 빅데이터를 분석하기 위해 내가 저장을 원하는 파일의 주소에서 jupyter notebook에 들어왔다. 내가 분석할 자료는 2016년 1월 부터 3월까지의 시간대별 전력소비량이다. #pandas를 pd라는 이름으로 불러온다. #as 다음에는 자기가 원하는 어느 이름이나 상관없긴 하지만, #전세계 사람들이 pandas 의 약자로 pd를 쓴다고 하니 그냥 순응한다. import pandas as pd #df: dataframe 의 약자, pandas 를 읽기 위한 변수명 df = pd.read_csv('파일명.csv') #원하는 개수만 화면 출력 (앞 5개) df.head(5) #원하는 개수만 화면 출력 (뒤 5개) df.tail(5) 각각의 출력값은 다음과 같다. 각종 수치들 확인하기 #자.. 2020. 9. 22.
[빅데이터] 아나콘다 파이썬3.7 개발환경 구축/Cmd에서 가상환경 만들기/주피터노트북 시작하기 https://www.anaconda.com/ Anaconda | The World's Most Popular Data Science Platform Anaconda is the birthplace of Python data science. We are a movement of data scientists, data-driven enterprises, and open source communities. www.anaconda.com 아나콘다 사이트에서 파이썬을 다운받을 수 있다. 파이썬 홈페이지의 다운로드에는 Ver.3.8 이지만 나중에 Ai, 인공지능을 다룰때 'TensorFlow' 라는 소프트웨어를 같이 사용하려면 Python 3.7을 다운받아야 한다. [Anaconda] - [Resources] -.. 2020. 9. 22.