안녕하세요
사회과학 연구자들이 SPSS에서 가장 중요하게 살펴봐야할 분석은 회귀분석입니다.
하지만 어떠한 수치를 중요하게 봐야하는지와 그 수치가 무엇을 봐야하는지는 잘 모르는 경우가 많습니다.
그래서 이번 시간에는 어떤 수치를 어떻게 봐야하는지를 살펴보겠습니다.
일반적으로 회귀분석을 하면 다음과 같이 분석결과가 출력됩니다.
수치들을 하나씩 살펴보겠습니다.
결정계수 (R-squared)
흔히, 알스퀘어, 알제곱 등으로도 불리는 결정계수는 회귀 모델이 종속변수의 분산을 얼마나 잘 설명하는지를 나타내는 값으로, 0과 1 사이의 값을 가집니다. 결정계수가 1에 가까울수록 모델이 데이터를 잘 설명하고, 0에 가까울수록 데이터를 잘 설명하지 못한다고 판단합니다.
조정 결정계수 (Adjusted R-squared)
독립변수의 개수가 많아지면 결정계수의 값이 증가하는 경향이 있습니다. 조정 결정계수는 이러한 문제를 해결하기 위해 독립변수의 개수와 표본 크기를 고려하여 결정계수를 조정한 값입니다. 모델 간의 성능을 비교하는 데 사용됩니다.
Durbin-Watson
회귀분석에서 Durbin-Watson 통계량은 잔차(residuals)의 자기상관(autocorrelation)을 검정하는 데 사용되는 지표입니다. 자기상관은 회귀모델의 잔차가 시간적 또는 순서적으로 관련되어 있는지를 나타내는 것으로, 이를 통해 회귀모델의 가정 중 하나인 잔차의 독립성을 확인할 수 있습니다.
Durbin-Watson 통계량은 다음과 같이 계산됩니다:
- DW = Σ(εᵢ - εᵢ₋₁)² / Σεᵢ²
- 여기서 εᵢ는 i번째 관측치의 잔차를 나타냅니다.
Durbin-Watson 통계량은 일반적으로 0과 4 사이의 값을 가집니다.
대체적으로 Durbin-Watson 수치가 2 근처로 나왔을 경우, 잔차들 사이에 자기상관이 없음을 나타냅니다. 이 경우 회귀모델의 가정이 충족되어 이하 결과해석에 문제가 없습니다.
F-statistic 또는 F-값
회귀분석에서 F값(F-statistic 또는 F-값)은 전체 회귀모델이 통계적으로 유의한지를 검정하기 위해 사용되는 값입니다. F값은 회귀모델의 분산과 오차항의 분산의 비율로 계산됩니다. F-통계량은 다음과 같이 정의됩니다:
F값을 이용하여 회귀모델의 전체적인 적합도를 검정합니다. F값이 크면 회귀모델이 통계적으로 유의하다고 판단하며, 귀무가설 (회귀계수가 모두 0이라는 가정)을 기각하게 됩니다. F-통계량에 대한 p-값이 주어지며, 이 p-값이 유의수준(.05)보다 작으면 회귀모델이 통계적으로 유의하다고 판단합니다.
F값은 회귀모델의 전체적인 유의성을 평가하는 데 사용되지만, 각 독립변수의 개별적인 영향력은 t-통계량을 사용하여 검정합니다.
회귀계수 (Coefficients)
회귀분석에서 회귀계수는 독립변수(X)의 변화에 따른 종속변수(Y)의 변화를 설명합니다.
회귀계수는 크게 비표준화 회귀계수 (Unstandardized Coefficients)와 표준화 회귀계수 (Standardized Coefficients)로 구분합니다. 이 두 계수의 차이는 주로 스케일에 있습니다.
- 비표준화 회귀계수 (Unstandardized Coefficients): 이 회귀계수는 원래 변수의 단위에 따라 측정됩니다. 즉, 독립변수와 종속변수가 각각의 원래 단위로 표현됩니다. 비표준화 회귀계수는 독립변수의 단위 변화에 따른 종속변수의 평균 변화량을 나타냅니다. 이 값은 원래 데이터를 사용하여 회귀분석을 수행할 때 얻어지는 계수입니다.
- 표준화 회귀계수 (Standardized Coefficients): 이 회귀계수는 변수가 표준화되어 측정됩니다. 즉, 독립변수와 종속변수가 모두 평균이 0이고 표준편차가 1인 표준정규분포로 변환된 상태에서의 회귀계수를 의미합니다. 표준화 회귀계수는 독립변수의 표준편차 단위 변화에 따른 종속변수의 표준편차 단위 평균 변화량을 나타냅니다. 이 값은 변수 간의 상대적인 영향력을 비교하는 데 유용하며, 다른 스케일의 변수들이 포함된 모델에서 사용됩니다.
표준오차 (Standard Error)
표준오차는 회귀계수 추정치의 표준편차로, 회귀계수의 신뢰성을 평가하는 데 사용됩니다. 표준오차가 작을수록 회귀계수 추정치가 더 정확하다고 판단합니다.
t-통계량 (t-statistic) 및 p-값 (p-value)
t-통계량은 회귀계수가 유의한지 검정하기 위한 값으로, 회귀계수 추정치를 표준오차로 나누어 계산합니다. p-값은 t-통계량이 주어진 경우, 귀무 가설을 기각할 확률을 나타냅니다. p-값이 유의 수준(예:0.05)보다 작으면 회귀계수가 유의미하다고 판단합니다.
※ 비표준화계수(B)/표준오차=t-통계량
다중공선성 (Multicollinearity)
다중공선성은 독립변수들 간에 강한 상관관계가 존재할 때 발생하는 문제입니다. 다중공선성이 높으면 회귀계수 추정치의 정확성이 떨어지고, 모델 해석이 어려워집니다. 다중공선성을 평가하는 지표로는 VIF(Variance Inflation Factor)가 있습니다. 일반적으로 VIF 값이 10 이상인 경우 다중공선성 문제가 있다고 판단합니다.
'통계 > 통계이론' 카테고리의 다른 글
Paired t-test의 이론적 이해 (0) | 2023.04.10 |
---|---|
PCA 분석 이해하기 (0) | 2023.04.07 |
탐색적 요인분석과 확인적 요인분석의 차이: 자세한 이해와 활용 방안 (0) | 2023.04.03 |
로지스틱 회귀분석 이해하기 (0) | 2023.04.02 |
소벨테스트하는 방법(예시파일 첨부) (0) | 2023.03.25 |
최근댓글