데이터프레임 피벗 테이블 생성 가이드
데이터를 분석할 때, 특정 기준에 따라 데이터를 재구성하거나 집계하는 것은 매우 중요합니다. 피벗 테이블은 이러한 작업을 간단하게 도와주는 도구로, 엑셀 등 여러 프로그램에서 널리 사용됩니다. 판다스는 이 피벗 테이블 기능을 데이터프레임에 적용할 수 있게 해, 분석 작업을 더욱 효율적으로 만들어줍니다. 이 가이드에서는 피벗 테이블의 기본 개념부터 실무 활용법까지 자세히 알아보겠습니다.
목차
1. 피벗 테이블의 개념과 필요성
피벗 테이블은 데이터의 다양한 각도에서 요약하여 보여주는 도구입니다.
원본 데이터가 복잡하게 구성되어 있을 때, 피벗 테이블을 사용하면 필요한 정보만을 뽑아서 집계하거나 분류할 수 있습니다.
이는 데이터 분석 시, 특정 기준에 따라 데이터를 그룹화하거나 다양한 계산을 적용하며 정보를 도출해내는데 큰 도움을 줍니다.
엑셀을 비롯한 다양한 스프레드시트 프로그램에서는 피벗 테이블 기능을 제공하며, 이를 통해 사용자는 복잡한 데이터를 쉽게 정리하고 분석할 수 있게 됩니다.
2. 판다스를 사용한 피벗 테이블 생성
판다스는 Python의 데이터 처리 및 분석 라이브러리로, 데이터프레임이라는 구조를 사용하여 데이터를 다룹니다.
판다스의 pivot_table
함수를 활용하면 데이터프레임에서도 손쉽게 피벗 테이블을 생성할 수 있습니다.
이 함수는 매개변수로 데이터프레임, 집계할 열, 행, 값 등을 지정하여 다양한 형태의 피벗 테이블을 만들 수 있게 해줍니다.
예시코드:
import pandas as pd
# 샘플 데이터프레임 생성
data = {
'Date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],
'Product': ['A', 'B', 'A', 'B'],
'Sales': [100, 150, 200, 250]
}
df = pd.DataFrame(data)
# 판다스를 사용한 피벗 테이블 생성
pivot_df = df.pivot_table(values='Sales', index='Date', columns='Product', aggfunc='sum')
print(pivot_df)
위 코드는 'Date'를 행으로, 'Product'를 열로 사용하여 'Sales' 값을 집계한 피벗 테이블을 생성합니다.
결과적으로 날짜별 각 제품의 판매량을 한 눈에 파악할 수 있는 형태의 피벗 테이블이 출력됩니다.
이처럼 판다스를 활용하면 복잡한 데이터도 간단한 코드로 요약 및 분석이 가능합니다.
3. 피벗 테이블 활용 사례와 실무 예제
피벗 테이블은 다양한 분야에서 활용되며, 특히 비즈니스 분석, 마케팅, 재무, 로그 분석 등에서 빈번하게 사용됩니다.
데이터가 복잡하게 구성되어 있을 때, 피벗 테이블을 통해 필요한 정보를 빠르게 도출하고, 이를 기반으로 의사결정을 내릴 수 있습니다.
사례1: 월별 판매량 분석
한 회사에서는 월별로 제품별 판매량을 파악하여, 마케팅 전략을 계획하고자 합니다.
피벗 테이블을 사용하면 각 제품의 월별 판매량을 쉽게 확인하고, 어떤 제품이 어느 시기에 잘 팔렸는지를 파악할 수 있습니다.
예시코드:
import pandas as pd
# 샘플 데이터프레임 생성
data = {
'Date': ['2023-01', '2023-01', '2023-02', '2023-02', '2023-02', '2023-03'],
'Product': ['A', 'B', 'A', 'A', 'B', 'A'],
'Sales': [100, 150, 120, 130, 180, 110]
}
df = pd.DataFrame(data)
# 월별, 제품별 판매량 피벗 테이블 생성
pivot_df = df.pivot_table(values='Sales', index='Date', columns='Product', aggfunc='sum')
print(pivot_df)
사례2: 고객별 구매 패턴 분석
온라인 쇼핑몰에서는 고객별로 어떤 제품을 선호하는지 파악하여, 개인화된 마케팅 전략을 구성하려고 합니다.
피벗 테이블을 통해 고객별 구매 제품과 구매량을 확인하여, 각 고객의 선호도와 구매 패턴을 분석할 수 있습니다.
예시코드:
# 샘플 데이터프레임 생성
customer_data = {
'CustomerID': [1, 1, 2, 2, 3],
'Product': ['A', 'B', 'A', 'A', 'C'],
'Quantity': [2, 1, 3, 2, 1]
}
df_customer = pd.DataFrame(customer_data)
# 고객별 제품 구매량 피벗 테이블 생성
pivot_customer_df = df_customer.pivot_table(values='Quantity', index='CustomerID', columns='Product', aggfunc='sum', fill_value=0)
print(pivot_customer_df)
이처럼 피벗 테이블은 다양한 실무 상황에서 데이터를 효과적으로 분석하는 데 큰 도움을 제공합니다.
원하는 기준과 조건에 따라 데이터를 집계하고, 필요한 정보만을 빠르게 추출하여 결론을 도출할 수 있습니다.
아래 포스팅도 참고해 보세요! ▶ 파이썬 기초 문법 정리 및 예시코드 ▶ Pandas에서 데이터 합치는 법 ▶ 판다스에서 데이터 프레임 변수이름 변경 및 변수위치 이동하는 방법 ▶ Pandas 기초 살펴보기 ▶ Visual Studio Code 기본 단축키 모음 |