프로그래밍/파이썬

판다스를 활용한 효과적인 이상치 처리법

MKKM 2023. 10. 16. 17:57
반응형

데이터 분석의 성공은 깨끗한 데이터에서 시작됩니다. 이상치는 분석 결과에 큰 영향을 미칠 수 있으므로, 그 탐지와 처리는 매우 중요합니다.

 

 

목차

 

1. 이상치 탐지 및 이상치 처리 전략

이상치는 데이터 내에서 일반적인 범위를 벗어나는 값들을 의미합니다.
이들은 다양한 원인, 예를 들어 측정 오류, 입력 오류 등으로 인해 발생할 수 있습니다.
이상치의 존재는 데이터 분석의 정확도를 왜곡시킬 수 있기 때문에, 이를 탐지하고 적절하게 처리하는 것이 중요합니다.
이상치 탐지 방법에는 통계적 접근, 시각화, 머신러닝 기반 접근 등 다양한 방법이 있습니다.
탐지된 이상치는 제거하거나 다른 값으로 대체하는 등의 전략을 통해 처리할 수 있습니다.

 

결측값은 데이터 내에서 정보가 없는, 즉 값이 할당되지 않은 부분을 의미합니다.
이상치와 마찬가지로 결측값도 분석의 정확도에 영향을 미치므로 적절한 처리가 필요합니다.
결측값을 처리하는 전략 중 하나는 해당 값을 평균, 중앙값, 최빈값 등으로 대체하는 것입니다.
하지만, 결측값이 이상치와 연계되어 발생한 경우, 이러한 대체 방법이 오히려 데이터를 왜곡시킬 수 있습니다.
예를 들어, 측정 오류로 인해 결측값이 발생한 경우 해당 위치에 이상치가 있었을 가능성이 있습니다.
이러한 경우에는 해당 데이터를 제외하거나 다른 방법으로 처리해야 합니다.
판다스를 사용하면 결측값과 이상치의 처리를 간편하게 할 수 있습니다. 아래는 이를 위한 예시 코드입니다.


import pandas as pd
import numpy as np

# 예제 데이터 생성
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [5, np.nan, 7, 8, 9],
    'C': [9, 8, 7, np.nan, 5]
})

# 결측값 확인
print(df.isnull())

# 결측값을 열의 평균값으로 대체
df.fillna(df.mean(), inplace=True)

print(df)

 

3. 데이터 정제 및 깔끔한 데이터프레임 생성

데이터 정제는 분석 전에 데이터의 품질을 향상시키기 위해 수행하는 과정입니다.
데이터에는 노이즈, 오류, 결측값, 중복 등 다양한 문제점이 있을 수 있습니다.
이러한 문제점들은 분석의 정확도를 저하시키므로, 이를 해결하기 위한 절차가 필요합니다.
데이터 정제 과정에서는 이상치 탐지 및 제거, 결측값 처리, 중복 제거 등의 작업이 이루어집니다.
데이터프레임의 정제를 위해 판다스는 다양한 기능을 제공합니다.
깔끔한 데이터프레임(Tidy Data)은 각 변수가 열에, 각 관측치가 행에, 각 관측 단위별로 테이블이 형성되는 형태를 의미합니다.
깔끔한 데이터의 형태는 데이터 분석을 더욱 용이하게 만들며, 이를 위해 판다스의 여러 함수와 메서드를 활용할 수 있습니다.

아래는 판다스를 활용한 데이터 정제 및 깔끔한 데이터프레임 생성의 예시 코드입니다.


import pandas as pd

# 예제 데이터 생성
df = pd.DataFrame({
    'ID': [1, 2, 3, 4, 4, 5],
    'Value': [10, 20, 30, 40, 40, 50],
    'Category': ['A', 'B', 'A', 'B', 'B', 'A']
})

# 중복 데이터 제거
df.drop_duplicates(inplace=True)

# 결측값 처리 - 예제에서는 결측값이 없지만, 평균값으로 대체하는 방법을 보여줌
df.fillna(df.mean(), inplace=True)

# 'Category' 열을 이용한 원-핫 인코딩
df = pd.get_dummies(df, columns=['Category'], drop_first=True)

print(df)

데이터 정제 및 변환 작업은 데이터의 품질을 높이고, 분석 과정을 보다 효율적으로 만들어 줍니다.
판다스는 이러한 작업을 간단하게 수행할 수 있는 다양한 도구를 제공하므로, 이를 적절히 활용하여 데이터를 준비하는 것이 중요합니다.

 

 

아래 포스팅도 참고해 보세요!

 [쥬피터노트북] 알아두면 유용한 매직 커맨더
 주피터 노트북 주요 단축키 정리
 변수 및 데이터 유형 이해
 초보자를 위한 파이썬 사용 팁
 Python 내장 함수를 활용한 데이터 분석 기초
반응형