import pandas as pd
import numpy as np
import seaborn as sns
import ssl
from bs4 import BeautifulSoup
import requests
import re
ssl._create_default_https_context = ssl._create_unverified_context
df = pd.read_csv('/Users/pandas_sample/part3/auto-mpg.csv', header=None)
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
'acceleration','model year','origin','name']
# 첫 5줄 보기
print(df.head(), '\n')
# 마지막 5줄 보기
print(df.tail(), '\n')
# 행,열 갯수 확인
print(df.shape, '\n')
# 데이터프레임 내용 확인하기, 명세
print(df.info(), '\n')
# 컬럼명과 데이터타입만 보기
print(df.dtypes, '\n')
# 특정 컬럼의 데이터타입 확인
print(df.mpg.dtypes, '\n')
# 기술 통계 정보 (평균, 표준편차, 최대, 최소, 중위값)
print(df.describe(), '\n')
# 문자열 컬럼에 대해, 고유값 갯수, 최빈값, 빈도수를 알려준다
print(df.describe(include='all'), '\n')
# 각 열이 가지고 있는 원소 갯수 확인
print(df.count(), '\n')
# df.count()가 반환하는 객체 타입 출력
print(type(df.count))
# 특정 열이 가지고 있는 고유값의 종류와 갯수를 알려준다.
# 컬럼에 어떤 값이 몇개씩 들어있는지 궁금하면 쓴다.
print(df.head(), '\n')
unique_values = df['origin'].value_counts()
print(unique_values, '\n')
row가 많은 데이터를 다룰 때 head()함수를 자주 사용할 것 같다. 기본 통계 정보가 궁금할 때는 describe() 특히 "inclue='all' 옵션을 쓰면 고유값 갯수, 최빈값, 빈도수를 알려줘서 편하다.