반응형

데이터 분석의 세계에서, 다양한 파일 형식과 그것을 효율적으로 처리하는 능력은 필수적입니다. Pandas는 이러한 작업을 간편하게 해주는 파이썬 라이브러리로, 여러 파일 형식에 대한 입출력을 지원합니다. 이 가이드는 Pandas를 활용하여 다양한 데이터 파일 형식을 어떻게 읽고 쓸 수 있는지에 대한 기본적인 방법을 소개합니다.

 

 

목차

  1. CSV (Comma-Separated Values)
  2. Excel
  3. SQL Database
  4. Parquet
  5. HDF5
  6. Feather
  7. Stata
  8. SAS
  9. SPSS
  10. JSON (JavaScript Object Notation)
  11. HTML
  12. Pickle

 

1. CSV (Comma-Separated Values)

텍스트 형식의 데이터 파일로, 각 값이 쉼표로 구분되어 있습니다. 가장 널리 사용되는 데이터 교환 형식 중 하나입니다.

    • 불러오기

import pandas as pd
data = pd.read_csv('file_path.csv')

    • 저장하기

data.to_csv('output_path.csv', index=False)

 

2. Excel

Microsoft Excel 스프레드시트 프로그램에서 사용하는 파일 형식입니다. 데이터, 공식, 차트 등을 포함할 수 있습니다.

    • 불러오기

data = pd.read_excel('file_path.xlsx')

    • 저장하기

data.to_excel('output_path.xlsx', index=False)

 

3. SQL Database

관계형 데이터베이스 시스템(RDBMS)에서 사용하는 데이터 저장 형식입니다. 테이블 형태의 구조화된 데이터를 저장합니다.

    • 불러오기

import sqlite3
conn = sqlite3.connect('database.db')
data = pd.read_sql('SELECT * FROM table_name', conn)

 

    • 저장하기

data.to_sql('table_name', conn, if_exists='replace')

 

4. Parquet

열 기반의 데이터 저장 형식으로, 빅 데이터와 같은 대용량 데이터 처리에 효율적입니다.

    • 불러오기

data = pd.read_parquet('file_path.parquet')

 

    • 저장하기

data.to_parquet('output_path.parquet')

 

5. HDF5

대용량 데이터를 저장하고 관리하기 위한 바이너리 파일 형식입니다. 계층적 데이터 형식을 사용하며, 다양한 종류의 데이터를 하나의 파일에 저장할 수 있습니다.

    • 불러오기

data = pd.read_hdf('file_path.h5')

 

    • 저장하기

data.to_hdf('output_path.h5', key='data')

 

6. Feather

데이터 분석을 위한 빠른 바이너리 파일 형식입니다. Apache Arrow 프로젝트의 일부로 개발되었습니다.

    • 불러오기

data = pd.read_feather('file_path.feather')

 

    • 저장하기

data.to_feather('output_path.feather')

 

7. Stata

통계 및 데이터 분석 소프트웨어 Stata에서 사용하는 파일 형식입니다.

    • 불러오기

data = pd.read_stata('file_path.dta')

 

    • 저장하기

data.to_stata('output_path.dta')

 

8. SAS

SAS 소프트웨어에서 사용하는 데이터셋 형식입니다.

    • 불러오기

data = pd.read_sas('file_path.sas7bdat')

 

9. SPSS

통계 소프트웨어 패키지 SPSS에서 사용하는 데이터 파일 형식입니다.

    • 불러오기

data = pd.read_spss('file_path.sav')

 

10. JSON (JavaScript Object Notation)

경량의 데이터 교환 형식으로, 사람이 읽을 수 있으며 키-값 쌍으로 구성된 데이터 객체를 전송하는 데 사용됩니다.

    • 불러오기

data = pd.read_json('file_path.json')

 

    • 저장하기

data.to_json('output_path.json')

 

11. HTML

웹 페이지 구조를 정의하는 마크업 언어입니다. 데이터 테이블을 포함한 웹 페이지의 내용을 나타냅니다.

    • 불러오기

data_list = pd.read_html('file_path.html')
data = data_list[0]

 

    • 저장하기

data.to_html('output_path.html')

 

12. Pickle

Python 객체를 직렬화하는 형식입니다. Python 객체의 구조를 유지하면서 파일에 저장하거나 네트워크를 통해 전송하는 데 사용됩니다.

    • 불러오기

data = pd.read_pickle('file_path.pkl')

 

    • 저장하기

data.to_pickle('output_path.pkl')

 

 

 

아래 포스팅도 참고해 보세요!

 [파이썬]Pandas에서 DataFrame의 행과 열 삭제하기
 [쥬피터노트북] 알아두면 유용한 매직 커맨더
 파이썬 OS라이브러리 알아보기
 파이썬 초보자들이 자주하는 실수 20개
 파이썬에서 흔히 마주치는 에러와 해결 방법
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기