본문 바로가기

Pandas

판다스 > 데이터프레임 값, 메타정보 둘러보기


import pandas as pd
import numpy as np
import seaborn as sns
import ssl
from bs4 import BeautifulSoup
import requests
import re

ssl._create_default_https_context = ssl._create_unverified_context

df = pd.read_csv('/Users/pandas_sample/part3/auto-mpg.csv', header=None)
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name']

# 첫 5줄 보기
print(df.head(), '\n')

# 마지막 5줄 보기
print(df.tail(), '\n')

# 행,열 갯수 확인
print(df.shape, '\n')

# 데이터프레임 내용 확인하기, 명세
print(df.info(), '\n')

# 컬럼명과 데이터타입만 보기
print(df.dtypes, '\n')

# 특정 컬럼의 데이터타입 확인
print(df.mpg.dtypes, '\n')

# 기술 통계 정보 (평균, 표준편차, 최대, 최소, 중위값)
print(df.describe(), '\n')

# 문자열 컬럼에 대해, 고유값 갯수, 최빈값, 빈도수를 알려준다
print(df.describe(include='all'), '\n')

# 각 열이 가지고 있는 원소 갯수 확인
print(df.count(), '\n')

# df.count()가 반환하는 객체 타입 출력
print(type(df.count))

# 특정 열이 가지고 있는 고유값의 종류와 갯수를 알려준다.
# 컬럼에 어떤 값이 몇개씩 들어있는지 궁금하면 쓴다. 
print(df.head(), '\n')
unique_values = df['origin'].value_counts()
print(unique_values, '\n')

 

row가 많은 데이터를 다룰 때 head()함수를 자주 사용할 것 같다. 기본 통계 정보가 궁금할 때는 describe() 특히  "inclue='all' 옵션을 쓰면 고유값 갯수, 최빈값, 빈도수를 알려줘서 편하다. 


Where there is a will there is a way