반응형
데이터프레임에서 특정 데이터를 선택하거나 추출하는 것은 데이터 분석의 기초 작업 중 하나입니다. 판다스의 데이터 인덱싱과 슬라이싱에 관한 기본적인 내용부터 고급 기법까지 자세히 알아보겠습니다.
1. 데이터프레임 인덱싱과 슬라이싱의 기본 문법
판다스의 데이터프레임은 행과 열을 기준으로 데이터에 접근할 수 있습니다.
열 기반의 인덱싱은 대괄호 안에 열 이름을 넣어 사용하며, 행 기반의 슬라이싱은 `loc`와 `iloc`를 활용합니다.
이를 통해 원하는 데이터를 쉽게 선택하거나 추출할 수 있습니다.
특히, 슬라이싱은 범위를 지정하여 데이터를 추출하는 방법입니다.
2. 조건을 활용한 데이터프레임 필터링
데이터프레임에서 특정 조건을 만족하는 데이터만을 추출하는 것은 매우 흔한 작업입니다.
판다스에서는 조건 연산을 활용하여 원하는 데이터만을 필터링할 수 있습니다.
이를 통해 데이터 분석 시 특정 기준에 따른 데이터의 특성을 쉽게 파악할 수 있습니다.
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40]})
filtered_df = df[df['A'] > 2]
3. 위치 기반 인덱싱과 라벨 기반 인덱싱
판다스에서는 두 가지 주요 인덱싱 방법을 제공합니다: 위치 기반 인덱싱과 라벨 기반 인덱싱.
`iloc`는 위치 기반 인덱싱을, `loc`는 라벨 기반 인덱싱을 위한 메서드입니다.
`iloc`는 정수를 사용하여 행과 열의 위치에 직접 접근하는 반면, `loc`는 라벨을 사용하여 데이터에 접근합니다.
# iloc 예제
row_2 = df.iloc[2]
# loc 예제
row_label_2 = df.loc[2]
반응형
'프로그래밍 > 파이썬' 카테고리의 다른 글
판다스로 데이터프레임 병합 방법 (0) | 2023.10.13 |
---|---|
판다스를 활용한 결측값 처리 방법 (0) | 2023.10.13 |
판다스의 다중 인덱스와 다중 열을 활용한 데이터 분석 기법 (0) | 2023.10.13 |
판다스와 시각화 라이브러리로 데이터 살펴보기 (0) | 2023.10.13 |
판다스를 이용한 데이터 그룹화와 집계 기법 (0) | 2023.10.13 |
최근댓글