통계/통계이론

카이제곱 분석 이해하기

MKKM 2023. 9. 23. 15:50
반응형

카이제곱분석은 범주형 데이터의 관측치와 기대치 간의 차이를 검정하는 통계적 방법입니다. 이 분석은 두 변수 간의 관계나 한 변수의 분포에 대한 적합도를 파악하는 데 주로 사용됩니다. 올바르게 해석될 경우, 연구에서 중요한 통찰력을 제공할 수 있습니다.

 

 

카이제곱분석에 관한 글

  1. 카이제곱분석이란?
  2. 카이제곱 검정의 원리
  3. 카이제곱 검정의 유형들
  4. 카이제곱 검정의 전제조건
  5. 카이제곱분석의 단계별 진행 방법
  6. 카이제곱분석의 한계점
  7. 카이제곱 검정과 다른 통계적 방법론과의 비교
  8. 분석 및 해석 예시

 

1. 카이제곱분석이란?

  • 카이제곱분석은 범주형 데이터의 관측 빈도와 기대 빈도 사이의 차이를 검정하는 통계적 방법입니다.
  • 주로 범주형 데이터의 독립성, 동질성, 분포의 적합도 등을 검정하는 데 사용됩니다.
  • 카이제곱 검정은 빈도나 비율 데이터의 차이를 분석하는 데 적합합니다.

 

2. 카이제곱 검정의 원리

  • 관측 빈도(O)와 기대 빈도(E)의 차이를 이용하여 계산됩니다.
  • 카이제곱 통계량 = Σ [(O - E)² / E]
  • 자유도(Degree of Freedom, df)는 (행의 수 - 1) x (열의 수 - 1)로 계산됩니다.

 

3. 카이제곱 검정의 유형들

  • 독립성 검정: 두 범주형 변수가 서로 독립적인지를 검정합니다.
  • 동질성 검정: 두 이상의 집단이 동일한 분포를 가지는지 검정합니다.
  • 적합도 검정: 샘플 데이터가 특정 분포를 따르는지 검정합니다.

 

4. 카이제곱 검정의 전제조건

  • 데이터는 무작위로 선택되어야 합니다.
  • 기대 빈도는 모든 셀에서 5 이상이어야 합니다.
  • 관측 데이터는 범주형이어야 합니다.

 

5. 카이제곱분석의 단계별 진행 방법

  • 문제 설정: 연구 문제나 가설을 명확하게 설정합니다.
  • 데이터 수집: 범주형 데이터를 수집합니다.
  • 기대 빈도 계산: 각 셀의 기대 빈도를 계산합니다.
  • 카이제곱 통계량 계산: 관측 빈도와 기대 빈도를 사용하여 카이제곱 통계량을 계산합니다.
  • 결론 도출: 유의수준(예: 0.05)을 기준으로 p-value와 비교하여 가설을 채택하거나 기각합니다.

 

6. 카이제곱분석의 한계점

  • 작은 표본 크기에서는 높은 타입 1 오류의 위험이 있습니다.
  • 범주형 데이터만 분석 가능하며 연속형 데이터에는 적용할 수 없습니다.
  • 인과 관계를 파악하는 데에 제한적입니다.

 

7. 카이제곱 검정과 다른 통계적 방법론과의 비교

  • 카이제곱 검정은 범주형 데이터의 빈도나 비율의 차이를 분석하기에 적합합니다.
  • 로지스틱 회귀는 범주형 반응 변수와 하나 이상의 설명 변수 사이의 관계를 모델링하는 데 사용됩니다.
  • 다른 비모수 검정(예: Mann-Whitney U 검정)은 연속형 데이터의 분포 차이를 분석하기에 적합합니다.

 

8. 분석 및 해석 예시

상황 예시:
한 대학에서는 전공(과학, 예술)과 학습 스타일(집단 학습, 개별 학습)간의 관계에 대해 조사하였습니다. 이 두 범주간에 관련이 있는지 카이제곱 분석을 통해 검정해봅시다.

 

데이터:

  집단 학습 개별 학습 합계
과학 30 10 40
예술 10 30 40
합계 40 40 80

 

기대 빈도 계산:

과학과 학생이 집단 학습을 선호할 확률 = (과학 전공 학생 수 / 전체 학생 수) x (집단 학습을 선호하는 학생 수 / 전체 학생 수) = (40/80) x (40/80) = 0.25 x 80 = 20

 

기대 빈도 표:

 

  집단 학습 개별 학습
과학 20 20
예술 20 20

 

 

카이제곱 통계량 계산:

Σ [(O - E)² / E]

= (30-20)²/20 + (10-20)²/20 + (10-20)²/20 + (30-20)²/20

= 10 + 10 + 10 + 10

= 40

자유도 = (2-1) x (2-1) = 1

 

 

 

결과:

카이제곱 통계량 값은 40이고, 자유도 1에서의 유의 수준 0.05의 카이제곱 값보다 큽니다. 따라서, 전공과 학습 스타일간에는 통계적으로 유의미한 관계가 있다고 결론 지을 수 있습니다.

 

해석:

과학 전공 학생들은 집단 학습을, 예술 전공 학생들은 개별 학습을 더 선호하는 경향이 통계적으로 확인되었습니다.

 

 

 

 
반응형