1-2. pandas를 이용한 텍스트 파일과 엑셀 파일 읽기
1. pandas 0.20.1 설치하기
- cmd : pip3 install pandas==0.20.1
2. jupyter notebook에서 [DataScience] - [source_code] 에 python3 파일 만들기
3. pandas 모듈 불러오기
import pandas as pd
4. CSV 파일 불러오기
- pandas에서 CSV 파일을 읽는 명령은 read_csv
- CSV 파일에 한글이 있는 경우, 인코딩에 신경써야 함
> 우리가 설치한 파일은 UTF-8 형식으로 인코딩되어 있으므로, UTF-8로 형식 지정
# CCTV_Seoul 이라는 변수에 pandas를 이용하여 data폴더의 01. CCTV_in_Seoul.csv 파일을 utf-8로 인코딩하여 불러옴
CCTV_Seoul = pd.read_csv('../data/01. CCTV_in_Seoul.csv', encoding='utf-8')
#CCTV_Seoul 변수에 저장된 내용을 첫 5행만 보여줌
CCTV_Seoul.head()
- pandas의 첫 줄은 column(열), 데이터 뒤에 columns를 입력하면 column의 이름들 반환
CCTV_Seoul.columns
- columns 중 0번째인 기관명을 구별로 변경
CCTV_Seoul.columns[0]
5. xls 파일 불러오기
- pandas에서 excel 파일을 읽는 명령은 read_excel
- excel 파일에 한글이 있는 경우, 인코딩에 신경써야 함
> 우리가 설치한 파일은 UTF-8 형식으로 인코딩되어 있으므로, UTF-8로 형식 지정
pop_Seoul = pd.read_excel('../data/01. population_in_Seoul.xls', encoding='utf-8')
pop_Seoul.head()
# 만약, 다음과 같은 오류 메시지가 출력될 경우 새로운 cmd창에 다음과 같은 명령어 입력
> pip3 install xlrd
- 우리가 받은 엑셀 파일은 데이터 첫 3행이 모두 label이기때문에, 3번째 줄부터 읽어올 수 있도록 한다.
> header = 2 (배열은 1부터가 아닌 0부터 시작)
- 우리가 사용할 데이터(열)만 읽어온다. (B, D, G, J, N 열)
> parse_cols = 'B. D. G. J. N'
pop_Seoul = pd.read_excel('../data/01. population_in_Seoul.xls',
header = 2,
parse_cols = 'B, D, G, J, N',
encoding='utf-8')
pop_Seoul.head()
- 데이터의 columns들이 이상하게 되어있으니, 알기 쉽게 바꾼다. 명령어는 rename
> 자치구 -> 구별
> 계 -> 인구수
> 계.1 -> 한국인
> 계.2 -> 외국인
> 65세이상고령자 -> 고령자
- 변경 내용을 변수에 갱신한다.
> inplace=True 옵션 사용
pop_Seoul.rename(columns={pop_Seoul.columns[0] : '구별',
pop_Seoul.columns[1] : '인구수',
pop_Seoul.columns[2] : '한국인',
pop_Seoul.columns[3] : '외국인',
pop_Seoul.columns[4] : '고령자'}, inplace=True)
pop_Seoul.head()