프로그래밍/파이썬

판다스의 다중 인덱스와 다중 열을 활용한 데이터 분석 기법

MKKM 2023. 10. 13. 16:44
반응형

다중 인덱스와 다중 열은 판다스의 고급 기능으로, 데이터의 차원을 늘려서 더욱 복잡한 데이터 구조를 표현하는 데 큰 힘을 발휘합니다

 

 

 

1. 다중 인덱스와 다중 열의 개념과 활용

다중 인덱스와 다중 열은 판다스에서 고급 기능 중 하나로, 데이터의 차원을 늘려서 더욱 복잡한 데이터 구조를 표현할 수 있게 합니다.
기본적인 데이터프레임의 행과 열 외에도 여러 레벨의 인덱스나 열을 가질 수 있게 되며, 이를 통해 다양한 데이터 조작과 연산을 수행할 수 있습니다.
이러한 기능은 특히 시계열 데이터나 계층적인 데이터 구조를 다룰 때 유용하게 사용됩니다.

 

2. 다중 인덱스로 데이터프레임 다루기

판다스의 다중 인덱스는 데이터프레임에서 여러 레벨의 인덱스를 동시에 사용할 수 있게 해줍니다.
예를 들어, 시계열 데이터에서 연도와 월을 동시에 인덱스로 사용하고 싶을 때 다중 인덱스를 활용할 수 있습니다.
`set_index` 함수를 사용하여 다중 인덱스를 설정할 수 있고, `xs` 함수를 사용하여 특정 레벨의 인덱스 값에 접근할 수 있습니다.
이 외에도 `swaplevel`, `sort_index`와 같은 다양한 메서드를 통해 다중 인덱스를 조작할 수 있습니다.

 

import pandas as pd
df = pd.DataFrame({'year': [2020, 2020, 2021, 2021], 'month': [1, 2, 1, 2], 'value': [10, 20, 30, 40]})
df_multi = df.set_index(['year', 'month'])

 

3. 다중 열을 활용한 데이터 조작

다중 열은 데이터프레임에서 여러 레벨의 열을 가질 수 있게 해줍니다.
이를 통해 데이터프레임 내의 데이터를 더욱 세분화하여 표현할 수 있게 됩니다.
`pivot_table`이나 `groupby`와 같은 함수를 사용할 때 다중 열 구조가 생성될 수 있습니다.
다중 열의 각 레벨은 `get_level_values` 함수를 통해 접근하거나, 직접 열의 이름을 사용하여 접근할 수 있습니다.

 

import pandas as pd
df = pd.DataFrame({'A': ['foo', 'foo', 'bar', 'bar'], 'B': [1, 2, 1, 2], 'values': [10, 20, 30, 40]})
df_pivot = df.pivot_table(index='A', columns='B', values='values', aggfunc='sum')

 

아래 포스팅도 참고해 보세요!

 파이썬 초보자들이 자주하는 실수 20개
 파이썬을 활용한 GUI 개발: 라이브러리 선택 가이드
 주피터 노트북 주요 단축키 정리
 파이썬 데이터 처리 마스터하기:결측값 탐색 및 처리 방법
 파이썬 OS라이브러리 알아보기

 

 

반응형