Pandas에서 읽을 수 있는 데이터 타입 정리
데이터 분석의 세계에서, 다양한 파일 형식과 그것을 효율적으로 처리하는 능력은 필수적입니다. Pandas는 이러한 작업을 간편하게 해주는 파이썬 라이브러리로, 여러 파일 형식에 대한 입출력을 지원합니다. 이 가이드는 Pandas를 활용하여 다양한 데이터 파일 형식을 어떻게 읽고 쓸 수 있는지에 대한 기본적인 방법을 소개합니다.
목차
- CSV (Comma-Separated Values)
- Excel
- SQL Database
- Parquet
- HDF5
- Feather
- Stata
- SAS
- SPSS
- JSON (JavaScript Object Notation)
- HTML
- Pickle
1. CSV (Comma-Separated Values)
텍스트 형식의 데이터 파일로, 각 값이 쉼표로 구분되어 있습니다. 가장 널리 사용되는 데이터 교환 형식 중 하나입니다.
- 불러오기
import pandas as pd
data = pd.read_csv('file_path.csv')
- 저장하기
data.to_csv('output_path.csv', index=False)
2. Excel
Microsoft Excel 스프레드시트 프로그램에서 사용하는 파일 형식입니다. 데이터, 공식, 차트 등을 포함할 수 있습니다.
- 불러오기
data = pd.read_excel('file_path.xlsx')
- 저장하기
data.to_excel('output_path.xlsx', index=False)
3. SQL Database
관계형 데이터베이스 시스템(RDBMS)에서 사용하는 데이터 저장 형식입니다. 테이블 형태의 구조화된 데이터를 저장합니다.
- 불러오기
import sqlite3
conn = sqlite3.connect('database.db')
data = pd.read_sql('SELECT * FROM table_name', conn)
- 저장하기
data.to_sql('table_name', conn, if_exists='replace')
4. Parquet
열 기반의 데이터 저장 형식으로, 빅 데이터와 같은 대용량 데이터 처리에 효율적입니다.
- 불러오기
data = pd.read_parquet('file_path.parquet')
- 저장하기
data.to_parquet('output_path.parquet')
5. HDF5
대용량 데이터를 저장하고 관리하기 위한 바이너리 파일 형식입니다. 계층적 데이터 형식을 사용하며, 다양한 종류의 데이터를 하나의 파일에 저장할 수 있습니다.
- 불러오기
data = pd.read_hdf('file_path.h5')
- 저장하기
data.to_hdf('output_path.h5', key='data')
6. Feather
데이터 분석을 위한 빠른 바이너리 파일 형식입니다. Apache Arrow 프로젝트의 일부로 개발되었습니다.
- 불러오기
data = pd.read_feather('file_path.feather')
- 저장하기
data.to_feather('output_path.feather')
7. Stata
통계 및 데이터 분석 소프트웨어 Stata에서 사용하는 파일 형식입니다.
- 불러오기
data = pd.read_stata('file_path.dta')
- 저장하기
data.to_stata('output_path.dta')
8. SAS
SAS 소프트웨어에서 사용하는 데이터셋 형식입니다.
- 불러오기
data = pd.read_sas('file_path.sas7bdat')
9. SPSS
통계 소프트웨어 패키지 SPSS에서 사용하는 데이터 파일 형식입니다.
- 불러오기
data = pd.read_spss('file_path.sav')
10. JSON (JavaScript Object Notation)
경량의 데이터 교환 형식으로, 사람이 읽을 수 있으며 키-값 쌍으로 구성된 데이터 객체를 전송하는 데 사용됩니다.
- 불러오기
data = pd.read_json('file_path.json')
- 저장하기
data.to_json('output_path.json')
11. HTML
웹 페이지 구조를 정의하는 마크업 언어입니다. 데이터 테이블을 포함한 웹 페이지의 내용을 나타냅니다.
- 불러오기
data_list = pd.read_html('file_path.html')
data = data_list[0]
- 저장하기
data.to_html('output_path.html')
12. Pickle
Python 객체를 직렬화하는 형식입니다. Python 객체의 구조를 유지하면서 파일에 저장하거나 네트워크를 통해 전송하는 데 사용됩니다.
- 불러오기
data = pd.read_pickle('file_path.pkl')
- 저장하기
data.to_pickle('output_path.pkl')
아래 포스팅도 참고해 보세요! ▶ [파이썬]Pandas에서 DataFrame의 행과 열 삭제하기 ▶ [쥬피터노트북] 알아두면 유용한 매직 커맨더 ▶ 파이썬 OS라이브러리 알아보기 ▶ 파이썬 초보자들이 자주하는 실수 20개 ▶ 파이썬에서 흔히 마주치는 에러와 해결 방법 |