Pandas에서 읽을 수 있는 데이터 타입 정리

MKKM 2023. 10. 7. 15:08

데이터 분석의 세계에서, 다양한 파일 형식과 그것을 효율적으로 처리하는 능력은 필수적입니다. Pandas는 이러한 작업을 간편하게 해주는 파이썬 라이브러리로, 여러 파일 형식에 대한 입출력을 지원합니다. 이 가이드는 Pandas를 활용하여 다양한 데이터 파일 형식을 어떻게 읽고 쓸 수 있는지에 대한 기본적인 방법을 소개합니다.

1. CSV (Comma-Separated Values)

텍스트 형식의 데이터 파일로, 각 값이 쉼표로 구분되어 있습니다. 가장 널리 사용되는 데이터 교환 형식 중 하나입니다.

불러오기

import pandas as pd
data = pd.read_csv('file_path.csv')

저장하기

data.to_csv('output_path.csv', index=False)

2. Excel

Microsoft Excel 스프레드시트 프로그램에서 사용하는 파일 형식입니다. 데이터, 공식, 차트 등을 포함할 수 있습니다.

불러오기

data = pd.read_excel('file_path.xlsx')

저장하기

data.to_excel('output_path.xlsx', index=False)

3. SQL Database

관계형 데이터베이스 시스템(RDBMS)에서 사용하는 데이터 저장 형식입니다. 테이블 형태의 구조화된 데이터를 저장합니다.

불러오기

import sqlite3
conn = sqlite3.connect('database.db')
data = pd.read_sql('SELECT * FROM table_name', conn)

저장하기

data.to_sql('table_name', conn, if_exists='replace')

4. Parquet

열 기반의 데이터 저장 형식으로, 빅 데이터와 같은 대용량 데이터 처리에 효율적입니다.

불러오기

data = pd.read_parquet('file_path.parquet')

저장하기

data.to_parquet('output_path.parquet')

5. HDF5

대용량 데이터를 저장하고 관리하기 위한 바이너리 파일 형식입니다. 계층적 데이터 형식을 사용하며, 다양한 종류의 데이터를 하나의 파일에 저장할 수 있습니다.

불러오기

data = pd.read_hdf('file_path.h5')

저장하기

data.to_hdf('output_path.h5', key='data')

6. Feather

데이터 분석을 위한 빠른 바이너리 파일 형식입니다. Apache Arrow 프로젝트의 일부로 개발되었습니다.

불러오기

data = pd.read_feather('file_path.feather')

저장하기

data.to_feather('output_path.feather')

7. Stata

통계 및 데이터 분석 소프트웨어 Stata에서 사용하는 파일 형식입니다.

불러오기

data = pd.read_stata('file_path.dta')

저장하기

data.to_stata('output_path.dta')

8. SAS

SAS 소프트웨어에서 사용하는 데이터셋 형식입니다.

불러오기

data = pd.read_sas('file_path.sas7bdat')

9. SPSS

통계 소프트웨어 패키지 SPSS에서 사용하는 데이터 파일 형식입니다.

불러오기

data = pd.read_spss('file_path.sav')

10. JSON (JavaScript Object Notation)

경량의 데이터 교환 형식으로, 사람이 읽을 수 있으며 키-값 쌍으로 구성된 데이터 객체를 전송하는 데 사용됩니다.

불러오기

data = pd.read_json('file_path.json')

저장하기

data.to_json('output_path.json')

11. HTML

웹 페이지 구조를 정의하는 마크업 언어입니다. 데이터 테이블을 포함한 웹 페이지의 내용을 나타냅니다.

불러오기

data_list = pd.read_html('file_path.html')
data = data_list[0]

저장하기

data.to_html('output_path.html')

12. Pickle

Python 객체를 직렬화하는 형식입니다. Python 객체의 구조를 유지하면서 파일에 저장하거나 네트워크를 통해 전송하는 데 사용됩니다.

불러오기

data = pd.read_pickle('file_path.pkl')

저장하기

data.to_pickle('output_path.pkl')

아래 포스팅도 참고해 보세요!

▶ [파이썬]Pandas에서 DataFrame의 행과 열 삭제하기
▶ [쥬피터노트북] 알아두면 유용한 매직 커맨더
▶ 파이썬 OS라이브러리 알아보기
▶ 파이썬 초보자들이 자주하는 실수 20개
▶ 파이썬에서 흔히 마주치는 에러와 해결 방법

저작자표시 비영리 변경금지 (새창열림)