통계/R

R에서 카이제곱 검정으로 범주형 데이터 분석하기

MKKM 2023. 10. 11. 18:57
반응형

카이제곱 검정은 범주형 데이터에 대한 통계적 검정 중 하나로, 관측된 빈도와 기대된 빈도 간의 차이가 통계적으로 유의미한지를 판단하는 데 사용됩니다. R에서 어떻게 카이제곱 검정을 수행하고 결과를 해석하는지 알아보겠습니다.

 

 

목차

  1. 카이제곱 검정 (Chi-Square Test) 이란
  2. R에서 카이제곱 검정 (Chi-Square Test)하는 법
  3. 분석결과 해석하는 법

 

1. 카이제곱 검정 (Chi-Square Test) 이란

카이제곱 검정은 범주형 데이터의 관측된 빈도와 기대된 빈도 간의 차이를 평가하는 통계적 검정입니다.
이 검정은 주로 두 범주형 변수 간의 독립성 혹은 연관성을 평가하기 위해 사용됩니다.
예를 들면, 두 변수 '성별'과 '흡연 여부' 간에 연관이 있는지 없는지를 알아보기 위해 카이제곱 검정을 사용할 수 있습니다.
결과적으로, 이 검정을 통해 얻은 p-값이 특정 임계값(예: 0.05)보다 낮으면 관측된 빈도와 기대된 빈도 간에 통계적으로 유의미한 차이가 있다고 판단됩니다.

 

2. R에서 카이제곱 검정 (Chi-Square Test)하는 법

R에서 카이제곱 검정을 수행하기 위해서는 chisq.test() 함수를 사용합니다.
이 함수는 주어진 데이터의 관측된 빈도와 기대된 빈도 간의 차이를 바탕으로 카이제곱 통계량을 계산하고, 이를 통해 p-값을 반환합니다.

 

예시 코드:

# 예시 데이터 생성
observed <- matrix(c(10, 20, 30, 40), nrow=2)

# 카이제곱 검정 수행
result <- chisq.test(observed)
print(result)

위 코드는 2x2의 표 형태로 주어진 관측된 빈도에 대하여 카이제곱 검정을 수행합니다.

 

3. 분석결과 해석하는 법

chisq.test() 함수의 결과로 반환되는 주요 항목은 카이제곱 통계량과 p-값입니다.
p-값은 관측된 빈도와 기대된 빈도 간의 차이가 우연에 의한 것일 확률을 나타내며, 이 값이 작을수록 두 변수 간에 유의미한 연관성이 있다는 증거가 됩니다.

 

예시 결과 해석:

# 예시 결과 출력
# 
#  Pearson's Chi-squared test
# 
# data:  observed
# X-squared = 10.81, df = 1, p-value = 0.001

위 결과에서 p-값이 0.001로, 0.05보다 작으므로 두 범주형 변수 간에는 통계적으로 유의미한 연관성이 있다고 판단할 수 있습니다.

 

아래 포스팅도 참고해 보세요!

 R을 활용한 조절효과 분석 기법
 R에서 구조방정식 하는 방법(Lavaan 패키지 사용법)
 R 데이터 프레임에서 열과 행의 합계를 구하는 법
 R에서 다중회귀분석하는 방법
 [R] ggplot2로 쉽게 데이터 시각화하기
반응형