본문 바로가기

파이썬

pandas > pivot_table 사용법 rows = mysql_util_query_to_all_dist_multithread(sql) df = pd.DataFrame(rows) df.columns = ['yyyymmdd', 'userid', 'postid', 'commentcnt'] pf = pd.pivot_table(df, index=['yyyymmdd'], values=['userid', 'commentcnt'], aggfunc={'userid':[len, pd.Series.nunique], 'comments':[np.sum, np.average]}, fill_value = 0, margins=False) print(pf) pf.to_csv("output.csv", mode='w') 이 코드를 활용하면 앞으로 시간을 많이 아낄수 있을 것 .. 더보기
파이썬 3.4 버전에 pandas 모듈 설치하기 (리눅스) 리눅스 서버에 설치된 파이썬 버전이 3.4인데 pandas 모듈을 설치하려고 할 때마다 오류가 나서 골치였는데, pandas 버전을 맞추면 설치가 된다는 걸 알게 되었다. https://stackoverflow.com/questions/38768996/how-to-install-pandas-for-python-3 How to install pandas for Python 3? I try to install pandas for Python 3 by executing the following command: sudo pip3 install pandas As a result I get this: Downloading/unpacking pandas Cannot fetch index base URL https:/.. 더보기
판다스 > 데이터프레임 값, 메타정보 둘러보기 import pandas as pd import numpy as np import seaborn as sns import ssl from bs4 import BeautifulSoup import requests import re ssl._create_default_https_context = ssl._create_unverified_context df = pd.read_csv('/Users/pandas_sample/part3/auto-mpg.csv', header=None) df.columns = ['mpg','cylinders','displacement','horsepower','weight', 'acceleration','model year','origin','name'] # 첫 5줄 보기 print.. 더보기
데이터프레임 -> 엑셀파일로 저장하기. import pandas as pd import numpy as np import seaborn as sns import ssl from bs4 import BeautifulSoup import requests import re ssl._create_default_https_context = ssl._create_unverified_context # 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df1, df2에 저장 data1 = {'name' : [ 'Jerry', 'Riah', 'Paul'], 'algol' : [ "A", "A+", "B"], 'basic' : [ "C", "B", "B+"], 'c++' : [ "B+", "C", "C+"]} data2 = {'c0':[1,2,3],.. 더보기
DataFrame - 인덱스 설정, 정렬하기 import pandas as pd # 범위 슬라이싱 exam_data = {'이름' : ['서준', '우현', '인아', '영철'], '수학' : [90, 80, 70, 30], '영어' : [98, 89, 95, 22], '음악' : [85, 95, 100, 55], '체육' : [100, 90, 90, 77]} df = pd.DataFrame(exam_data) print(df, "\n") # 특정 열을 행 인덱스로 설정한다 ndf = df.set_index(['이름']) print(ndf, "\n") # 다른 컬럼을 행 인덱스로 설정 ndf = df.set_index(['음악']) print(ndf, "\n") # 2개 컬럼을 행 인덱스로 설정 ndf = df.set_index(['수학', '음악.. 더보기