프로그래밍/파이썬

판다스를 활용한 데이터 인덱싱과 슬라이싱

MKKM 2023. 10. 13. 17:49
반응형

데이터프레임에서 특정 데이터를 선택하거나 추출하는 것은 데이터 분석의 기초 작업 중 하나입니다. 판다스의 데이터 인덱싱과 슬라이싱에 관한 기본적인 내용부터 고급 기법까지 자세히 알아보겠습니다.

 

 

 

1. 데이터프레임 인덱싱과 슬라이싱의 기본 문법

판다스의 데이터프레임은 행과 열을 기준으로 데이터에 접근할 수 있습니다.
열 기반의 인덱싱은 대괄호 안에 열 이름을 넣어 사용하며, 행 기반의 슬라이싱은 `loc`와 `iloc`를 활용합니다.
이를 통해 원하는 데이터를 쉽게 선택하거나 추출할 수 있습니다.
특히, 슬라이싱은 범위를 지정하여 데이터를 추출하는 방법입니다.

 

2. 조건을 활용한 데이터프레임 필터링

데이터프레임에서 특정 조건을 만족하는 데이터만을 추출하는 것은 매우 흔한 작업입니다.
판다스에서는 조건 연산을 활용하여 원하는 데이터만을 필터링할 수 있습니다.
이를 통해 데이터 분석 시 특정 기준에 따른 데이터의 특성을 쉽게 파악할 수 있습니다.

import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40]})
filtered_df = df[df['A'] > 2]

 

3. 위치 기반 인덱싱과 라벨 기반 인덱싱

판다스에서는 두 가지 주요 인덱싱 방법을 제공합니다: 위치 기반 인덱싱과 라벨 기반 인덱싱.
`iloc`는 위치 기반 인덱싱을, `loc`는 라벨 기반 인덱싱을 위한 메서드입니다.
`iloc`는 정수를 사용하여 행과 열의 위치에 직접 접근하는 반면, `loc`는 라벨을 사용하여 데이터에 접근합니다.

# iloc 예제
row_2 = df.iloc[2]
# loc 예제
row_label_2 = df.loc[2]
반응형