다중 인덱스와 다중 열은 판다스의 고급 기능으로, 데이터의 차원을 늘려서 더욱 복잡한 데이터 구조를 표현하는 데 큰 힘을 발휘합니다
1. 다중 인덱스와 다중 열의 개념과 활용
다중 인덱스와 다중 열은 판다스에서 고급 기능 중 하나로, 데이터의 차원을 늘려서 더욱 복잡한 데이터 구조를 표현할 수 있게 합니다.
기본적인 데이터프레임의 행과 열 외에도 여러 레벨의 인덱스나 열을 가질 수 있게 되며, 이를 통해 다양한 데이터 조작과 연산을 수행할 수 있습니다.
이러한 기능은 특히 시계열 데이터나 계층적인 데이터 구조를 다룰 때 유용하게 사용됩니다.
2. 다중 인덱스로 데이터프레임 다루기
판다스의 다중 인덱스는 데이터프레임에서 여러 레벨의 인덱스를 동시에 사용할 수 있게 해줍니다.
예를 들어, 시계열 데이터에서 연도와 월을 동시에 인덱스로 사용하고 싶을 때 다중 인덱스를 활용할 수 있습니다.
`set_index` 함수를 사용하여 다중 인덱스를 설정할 수 있고, `xs` 함수를 사용하여 특정 레벨의 인덱스 값에 접근할 수 있습니다.
이 외에도 `swaplevel`, `sort_index`와 같은 다양한 메서드를 통해 다중 인덱스를 조작할 수 있습니다.
import pandas as pd
df = pd.DataFrame({'year': [2020, 2020, 2021, 2021], 'month': [1, 2, 1, 2], 'value': [10, 20, 30, 40]})
df_multi = df.set_index(['year', 'month'])
3. 다중 열을 활용한 데이터 조작
다중 열은 데이터프레임에서 여러 레벨의 열을 가질 수 있게 해줍니다.
이를 통해 데이터프레임 내의 데이터를 더욱 세분화하여 표현할 수 있게 됩니다.
`pivot_table`이나 `groupby`와 같은 함수를 사용할 때 다중 열 구조가 생성될 수 있습니다.
다중 열의 각 레벨은 `get_level_values` 함수를 통해 접근하거나, 직접 열의 이름을 사용하여 접근할 수 있습니다.
import pandas as pd
df = pd.DataFrame({'A': ['foo', 'foo', 'bar', 'bar'], 'B': [1, 2, 1, 2], 'values': [10, 20, 30, 40]})
df_pivot = df.pivot_table(index='A', columns='B', values='values', aggfunc='sum')
아래 포스팅도 참고해 보세요! ▶ 파이썬 초보자들이 자주하는 실수 20개 ▶ 파이썬을 활용한 GUI 개발: 라이브러리 선택 가이드 ▶ 주피터 노트북 주요 단축키 정리 ▶ 파이썬 데이터 처리 마스터하기:결측값 탐색 및 처리 방법 ▶ 파이썬 OS라이브러리 알아보기 |
'프로그래밍 > 파이썬' 카테고리의 다른 글
판다스를 활용한 결측값 처리 방법 (0) | 2023.10.13 |
---|---|
판다스를 활용한 데이터 인덱싱과 슬라이싱 (0) | 2023.10.13 |
판다스와 시각화 라이브러리로 데이터 살펴보기 (0) | 2023.10.13 |
판다스를 이용한 데이터 그룹화와 집계 기법 (0) | 2023.10.13 |
판다스에서 데이터프레임 결합하는 여러가지 기법 (1) | 2023.10.08 |
최근댓글