통계/통계이론

분산분석 이해하기

MKKM 2023. 4. 26. 00:06
반응형

안녕하세요

이번에는 분산분석에 대한 전체적인 이해를 해보겠습니다.

 

 

1. 분산분석이란?

분산분석(ANOVA: Analysis of Variance)은 통계학에서 세 개 이상의 집단 간의 평균 차이가 통계적으로 유의한지를 검정하는 방법입니다. 이 방법은 두 개 이상의 처리 조건이나 그룹 간의 영향을 비교하는 데 사용되며, 특히 실험 설계에 사용됩니다.

분산분석은 F-검정을 사용하여 귀무가설(null hypothesis)을 검증합니다. 귀무가설은 모든 그룹의 평균이 같다는 가정입니다. 만약 F-검정 결과가 통계적으로 유의하다면, 그룹들 간의 평균 차이가 있다고 할 수 있습니다.

2. 분산분석의 원리

분산분석의 기본 원리는 전체 분산(total variance)을 그룹 내 분산(within-group variance)과 그룹 간 분산(between-group variance)으로 분해하여 분석하는 것입니다.

  • 그룹 내 분산(within-group variance): 각 그룹 내에서 개체들이 그룹 평균으로부터 얼마나 흩어져 있는지를 나타냅니다. 이값이 작으면 그룹 내 개체들이 비슷한 값을 갖는다는 것을 의미합니다.
  • 그룹 간 분산(between-group variance): 그룹 평균 간의 차이를 나타냅니다. 이 값이 크면 그룹 간에 차이가 크다는 것을 의미합니다.

분산분석에서는 F-통계량을 사용하여 검정을 수행합니다. F-통계량은 그룹 간 분산과 그룹 내 분산의 비율로 계산됩니다.

F-통계량 = (그룹 간 분산) / (그룹 내 분산)

F-통계량이 크다면 그룹 간 분산이 그룹 내 분산에 비해 크다는 것을 의미하며, 이 경우 귀무가설을 기각하고 대립가설을 채택할 수 있습니다. 즉, 적어도 한 집단의 평균이 다른 집단과 차이가 있는 것으로 판단할 수 있습니다.

3. 분산분석의 종류

분산분석에는 여러 가지 종류가 있습니다. 주요한 분산분석 유형은 다음과 같습니다.

  • 일원분산분석(One-way ANOVA): 하나의 범주형 독립변수에 따른 연속형 종속변수의 차이를 검정하는 방법입니다. 예를 들어, 세 가지 교육 방법에 따른 학생들의 성적 차이를 검정할 때 일원분산분석을 사용할 수 있습니다.
  • 이원분산분석(Two-way ANOVA): 두 개의 범주형 독립변수에 따른 연속형 종속변수의 차이를 검정하는 방법입니다. 이원분산분석은 각 독립변수의 효과와 그들의 상호작용 효과를 동시에 검정할 수 있습니다. 예를 들어, 성별과 교육 방법에 따른 학생들의 성적 차이를 검정할 때 이원분산분석을 사용할 수 있습니다.
  • 반복측정분산분석(Repeated measures ANOVA): 동일한 실험 단위에서 반복 측정된 연속형 종속변수의 차이를 검정하는 방법입니다. 예를 들어, 동일한 사람들이 여러 번 다른 시점에 성적 테스트를 수행했을 때 그 성적 차이를 검정할 때 반복측정분산분석을 사용할 수 있습니다.
  • 공변량분석(ANCOVA: Analysis of Covariance): 일원분산분석이나 이원분산분석과 함께 공변량이라는 연속형 변수를 고려하여 종속변수의 차이를 검정하는 방법입니다. 공변량은 종속변수에 영향을 미치는 다른 독립변수로, 이를 통해 모델의 정확도를 높일 수 있습니다. 예를 들어, 연구 참여자들의 나이가 학습 결과에 영향을 미칠 경우 나이를 공변량으로 고려하여 교육 방법에 따른 성적 차이를 검정할 수 있습니다.

4. 분산분석의 가정

분산분석을 수행하기 전에 아래와 같은 가정들이 충족되어야 합니다.

  • 정규성(Normality): 각 집단의 종속변수가 정규분포를 따른다는 가정입니다. 이를 검증하기 위해 샤피로-윌크 검정(Shapiro-Wilk test) 등의 정규성 검정을 수행할 수 있습니다.
  • 등분산성(Homoscedasticity): 모든 집단의 종속변수에 대한 분산이 동일하다는 가정입니다. 이를 검증하기 위해 레빈 검정(Levene test)이나 바틀렛 검정(Bartlett test) 등의 등분산성 검정을 수행할 수 있습니다.
  • 독립성(Independence): 각 실험 단위(개체)는 독립적이어야 한다는 가정입니다. 이 가정은 실험 설계나 데이터 수집 과정에서 충족되어야 합니다.

5. 분산분석의 실습

파이썬에서 분산분석을 수행하는 방법을 알아보겠습니다. 여기서는 일원분산분석을 예시로 들겠습니다. 데이터는 세 가지 교육 방법에 따른 학생들의 성적을 사용하겠습니다.

먼저 필요한 라이브러리를 설치하고 불러옵니다.

pip install numpy pandas scipy
import numpy as np
import pandas as pd
from scipy import stats

데이터를 생성하고 확인합니다.

method_A = np.array([85, 90, 78, 92, 88])
method_B = np.array([80, 85, 70, 85, 83])
method_C = np.array([76, 78, 68, 77, 76])

print(method_A)
print(method_B)
print(method_C)

일원분산분석을 수행합니다.

F_statistic, p_value = stats.f_oneway(method_A, method_B, method_C)
print("F 통계량:", F_statistic)
print("p 값:", p_value)

결과를 해석합니다. 만약 p 값이 .05보다 작다면, 귀무가설을 기각하고 그룹 간 평균 차이가 통계적으로 유의하다고 결론을 내릴 수 있습니다.

alpha = 0.05
if p_value < alpha:
print("그룹 간 평균 차이가 통계적으로 유의하다.")
else:
print("그룹 간 평균 차이가 통계적으로 유의하지 않다.")

 

반응형