프로그래밍/파이썬
판다스를 이용한 데이터 그룹화와 집계 기법
MKKM
2023. 10. 13. 14:29
반응형
판다스의 데이터 그룹화와 집계 기능을 중점적으로 살펴보며, 실제 데이터 분석에서 어떻게 활용할 수 있는지 알아보겠습니다.
1. 데이터 그룹화의 목적과 기본적인 사용법
데이터 그룹화는 관련된 데이터를 함께 묶어서 분석하거나 집계하는데 유용한 방법입니다.
판다스에서는 `groupby` 함수를 사용하여 데이터를 그룹화할 수 있습니다.
데이터 그룹화의 주요 목적은 큰 데이터 집합을 작은 그룹으로 나누어, 각 그룹의 특성이나 경향을 쉽게 파악하고자 하는 것입니다.
예를 들어, 회사의 매출 데이터에서 지역별, 월별, 제품별 매출을 알고 싶을 때 데이터 그룹화를 활용할 수 있습니다.
2. 그룹별 집계 함수 적용 및 사용 예제
`groupby` 함수를 사용한 후에는 다양한 집계 함수를 적용할 수 있습니다.
`sum`, `mean`, `max`, `min`과 같은 기본 집계 함수 외에도 `agg` 함수를 사용하여 여러 집계 함수를 동시에 적용할 수 있습니다.
이를 통해 그룹별로 요약된 정보를 얻을 수 있게 되며, 특정 그룹의 특성을 파악하는 데 유용합니다.
import pandas as pd
df = pd.DataFrame({'A': ['foo', 'foo', 'bar', 'bar'], 'B': [10, 20, 10, 30], 'C': [100, 200, 300, 400]})
grouped = df.groupby('A')
aggregated = grouped.agg({'B': 'sum', 'C': 'mean'})
3. 멀티레벨 그룹화와 복잡한 데이터 집계
멀티레벨 그룹화는 여러 키를 기준으로 데이터를 그룹화하는 방법입니다.
이를 통해 복잡한 데이터 구조에서도 원하는 정보를 쉽게 추출할 수 있습니다.
`groupby` 함수에 리스트 형태의 여러 키를 전달하여 멀티레벨 그룹화를 수행할 수 있습니다.
멀티레벨 그룹화 후에도 집계 함수를 적용하여 그룹별 요약 정보를 얻을 수 있습니다.
multi_grouped = df.groupby(['A', 'B'])
multi_aggregated = multi_grouped.agg({'C': 'sum'})
아래 포스팅도 참고해 보세요! ▶ 파이썬 데이터 처리 마스터하기:결측값 탐색 및 처리 방법 ▶ 초보자를 위한 예시코드가 포함된 Pandas관련 실수 모음 17선 ▶ 아나콘다 설치법 ▶ 파이썬 기초 문법 정리 및 예시코드 ▶ [쥬피터노트북] 알아두면 유용한 매직 커맨더 |
반응형