프로그래밍/파이썬

판다스로 데이터 파일 읽고 쓰기

MKKM 2024. 1. 6. 22:00
반응형

판다스는 데이터 분석에 필수적인 다양한 파일 포맷을 읽고 쓰는 기능을 제공합니다. 이 글에서는 Excel, CSV, JSON 등 다양한 데이터 포맷에서 데이터를 읽는 방법과 데이터프레임을 이러한 파일 형식으로 저장하는 방법을 소개할 것입니다. 또한, 데이터 포맷 변환과 가져오기에 대해서도 탐구할 것입니다. 이러한 지식은 데이터 분석을 위한 기초를 다지는 데 중요한 역할을 합니다.

 

 

1. 다양한 데이터 포맷(Excel, CSV, JSON)에서 읽기

판다스는 다양한 데이터 포맷에서 데이터를 읽을 수 있는 기능을 제공합니다.
Excel 파일은 판다스의 'read_excel' 함수를 사용하여 쉽게 읽을 수 있으며, 이를 통해 데이터프레임 형태로 데이터를 가져올 수 있습니다.
CSV 파일은 가장 일반적인 데이터 포맷 중 하나로, 'read_csv' 함수를 사용하여 데이터를 읽습니다.
JSON 파일은 웹 데이터와 호환성이 높은 포맷으로, 'read_json' 함수를 통해 손쉽게 데이터를 가져올 수 있습니다.
이러한 함수들은 데이터 분석 작업의 시작점으로, 다양한 출처의 데이터를 판다스로 쉽게 가져오게 해줍니다.

 

2. 데이터프레임을 파일로 저장하기

데이터 분석 과정에서 데이터를 수정하거나, 특정한 형태로 변환한 뒤 이를 파일로 저장해야 할 필요가 종종 있습니다.
판다스는 데이터프레임을 다양한 포맷으로 저장하는 간편한 방법을 제공합니다.
'to_csv' 함수를 사용하면 데이터프레임을 CSV 파일로 저장할 수 있으며, 'to_excel' 함수는 데이터를 Excel 파일로 저장합니다.
JSON 형식으로 데이터를 저장하려면 'to_json' 함수를 사용할 수 있습니다.
이러한 함수들은 데이터를 안전하게 저장하고, 다른 소프트웨어나 동료와 데이터를 쉽게 공유할 수 있게 해줍니다.
아래는 판다스를 사용하여 데이터프레임을 다양한 파일 포맷으로 저장하는 예시 코드입니다.


import pandas as pd

# 샘플 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

# CSV 파일로 저장
df.to_csv('sample_data.csv', index=False)

# Excel 파일로 저장
df.to_excel('sample_data.xlsx', index=False)

# JSON 파일로 저장
df.to_json('sample_data.json')

print("Data has been saved to CSV, Excel, and JSON files.")
        

이 코드는 먼저 간단한 데이터프레임을 생성하고, 이를 CSV, Excel, JSON 형식의 파일로 저장합니다.
파일로 데이터를 저장하는 과정은 데이터를 영구적으로 보관하고, 다른 애플리케이션에서도 사용할 수 있게 만드는 중요한 단계입니다.
판다스는 이러한 저장 과정을 매우 간단하게 만들어, 데이터 분석가가 더 많은 시간을 분석 자체에 집중할 수 있게 도와줍니다.

 

3. 데이터 포맷 변환과 데이터 가져오기

데이터 분석 과정에서 다양한 데이터 포맷 간의 변환은 흔히 발생하는 작업입니다.
변환 과정은 데이터를 호환 가능하게 만들고, 분석 툴과의 상호 작용을 용이하게 합니다.
판다스는 데이터 포맷 간의 변환을 쉽게 만드는 다양한 도구를 제공합니다.
예를 들어, CSV 파일을 JSON으로 변환하거나, Excel 파일을 SQL 데이터베이스로 변환하는 것이 가능합니다.
데이터를 가져오는 과정은 데이터 분석의 첫 단계로, 판다스는 URL, SQL 쿼리, Python 객체 등 다양한 출처로부터 데이터를 읽을 수 있는 기능을 제공합니다.
이러한 기능을 통해 데이터 분석가는 필요한 데이터를 효율적으로 불러오고, 적절한 포맷으로 변환하여 분석에 활용할 수 있습니다.
아래는 판다스를 사용하여 데이터를 가져오고 포맷을 변환하는 예시 코드입니다.


import pandas as pd

# CSV 파일에서 데이터 가져오기
df_from_csv = pd.read_csv('sample_data.csv')

# 데이터프레임을 JSON 포맷으로 변환
json_data = df_from_csv.to_json()

# JSON 데이터 출력
print("JSON formatted data:")
print(json_data)

# Excel 파일에서 데이터 가져오기
df_from_excel = pd.read_excel('sample_data.xlsx')

# 데이터프레임을 SQL 데이터베이스로 변환 (여기서는 SQLite를 사용)
import sqlite3
conn = sqlite3.connect('sample_data.db')
df_from_excel.to_sql('sample_table', conn)

# 변환된 데이터 확인
queried_data = pd.read_sql_query('SELECT * FROM sample_table', conn)
print("Data from SQL database:")
print(queried_data)
        

이 코드는 먼저 CSV 파일에서 데이터를 가져오고, 이를 JSON 포맷으로 변환합니다.
또한, Excel 파일에서 데이터를 가져와 SQL 데이터베이스로 변환하는 과정을 보여줍니다.
이러한 변환과 데이터 가져오기 과정을 통해, 데이터를 다양한 형태로 분석에 활용할 수 있게 되며, 데이터의 가치를 극대화할 수 있습니다.
판다스와 함께 다양한 데이터 소스와 포맷을 자유롭게 다룰 수 있어, 데이터 분석의 유연성이 크게 증가합니다.

 

 

반응형