반응형

안녕하세요

 

사회과학 연구자들이 SPSS에서 가장 중요하게 살펴봐야할 분석은 회귀분석입니다.

하지만 어떠한 수치를 중요하게 봐야하는지와 그 수치가 무엇을 봐야하는지는 잘 모르는 경우가 많습니다.

그래서 이번 시간에는 어떤 수치를 어떻게 봐야하는지를 살펴보겠습니다.

 

 

일반적으로 회귀분석을 하면 다음과 같이 분석결과가 출력됩니다.

 

수치들을 하나씩 살펴보겠습니다.

 

결정계수 (R-squared)

흔히, 알스퀘어, 알제곱 등으로도 불리는 결정계수는 회귀 모델이 종속변수의 분산을 얼마나 잘 설명하는지를 나타내는 값으로, 0과 1 사이의 값을 가집니다. 결정계수가 1에 가까울수록 모델이 데이터를 잘 설명하고, 0에 가까울수록 데이터를 잘 설명하지 못한다고 판단합니다.

 

조정 결정계수 (Adjusted R-squared)

독립변수의 개수가 많아지면 결정계수의 값이 증가하는 경향이 있습니다. 조정 결정계수는 이러한 문제를 해결하기 위해 독립변수의 개수와 표본 크기를 고려하여 결정계수를 조정한 값입니다. 모델 간의 성능을 비교하는 데 사용됩니다.

Durbin-Watson

회귀분석에서 Durbin-Watson 통계량은 잔차(residuals)의 자기상관(autocorrelation)을 검정하는 데 사용되는 지표입니다. 자기상관은 회귀모델의 잔차가 시간적 또는 순서적으로 관련되어 있는지를 나타내는 것으로, 이를 통해 회귀모델의 가정 중 하나인 잔차의 독립성을 확인할 수 있습니다.

 

Durbin-Watson 통계량은 다음과 같이 계산됩니다:

  • DW = Σ(εᵢ - εᵢ₋₁)² / Σεᵢ²
  • 여기서 εᵢ는 i번째 관측치의 잔차를 나타냅니다.

Durbin-Watson 통계량은 일반적으로 0과 4 사이의 값을 가집니다.

대체적으로 Durbin-Watson 수치가 2 근처로 나왔을 경우, 잔차들 사이에 자기상관이 없음을 나타냅니다. 이 경우 회귀모델의 가정이 충족되어 이하 결과해석에 문제가 없습니다.

 

F-statistic 또는 F-값

회귀분석에서 F값(F-statistic 또는 F-값)은 전체 회귀모델이 통계적으로 유의한지를 검정하기 위해 사용되는 값입니다. F값은 회귀모델의 분산과 오차항의 분산의 비율로 계산됩니다. F-통계량은 다음과 같이 정의됩니다:

 

F값을 이용하여 회귀모델의 전체적인 적합도를 검정합니다. F값이 크면 회귀모델이 통계적으로 유의하다고 판단하며, 귀무가설 (회귀계수가 모두 0이라는 가정)을 기각하게 됩니다. F-통계량에 대한 p-값이 주어지며, 이 p-값이 유의수준(.05)보다 작으면 회귀모델이 통계적으로 유의하다고 판단합니다.

F값은 회귀모델의 전체적인 유의성을 평가하는 데 사용되지만, 각 독립변수의 개별적인 영향력은 t-통계량을 사용하여 검정합니다.

 

 

회귀계수 (Coefficients)

회귀분석에서 회귀계수는 독립변수(X)의 변화에 따른 종속변수(Y)의 변화를 설명합니다.

회귀계수는 크게 비표준화 회귀계수 (Unstandardized Coefficients)와 표준화 회귀계수 (Standardized Coefficients)로 구분합니다. 이 두 계수의 차이는 주로 스케일에 있습니다.

  • 비표준화 회귀계수 (Unstandardized Coefficients): 이 회귀계수는 원래 변수의 단위에 따라 측정됩니다. 즉, 독립변수와 종속변수가 각각의 원래 단위로 표현됩니다. 비표준화 회귀계수는 독립변수의 단위 변화에 따른 종속변수의 평균 변화량을 나타냅니다. 이 값은 원래 데이터를 사용하여 회귀분석을 수행할 때 얻어지는 계수입니다.
  • 표준화 회귀계수 (Standardized Coefficients): 이 회귀계수는 변수가 표준화되어 측정됩니다. 즉, 독립변수와 종속변수가 모두 평균이 0이고 표준편차가 1인 표준정규분포로 변환된 상태에서의 회귀계수를 의미합니다. 표준화 회귀계수는 독립변수의 표준편차 단위 변화에 따른 종속변수의 표준편차 단위 평균 변화량을 나타냅니다. 이 값은 변수 간의 상대적인 영향력을 비교하는 데 유용하며, 다른 스케일의 변수들이 포함된 모델에서 사용됩니다.

 

표준오차 (Standard Error)

표준오차는 회귀계수 추정치의 표준편차로, 회귀계수의 신뢰성을 평가하는 데 사용됩니다. 표준오차가 작을수록 회귀계수 추정치가 더 정확하다고 판단합니다.

t-통계량 (t-statistic) 및 p-값 (p-value)

t-통계량은 회귀계수가 유의한지 검정하기 위한 값으로, 회귀계수 추정치를 표준오차로 나누어 계산합니다. p-값은 t-통계량이 주어진 경우, 귀무 가설을 기각할 확률을 나타냅니다. p-값이 유의 수준(예:0.05)보다 작으면 회귀계수가 유의미하다고 판단합니다.

※ 비표준화계수(B)/표준오차=t-통계량

 

다중공선성 (Multicollinearity)

다중공선성은 독립변수들 간에 강한 상관관계가 존재할 때 발생하는 문제입니다. 다중공선성이 높으면 회귀계수 추정치의 정확성이 떨어지고, 모델 해석이 어려워집니다. 다중공선성을 평가하는 지표로는 VIF(Variance Inflation Factor)가 있습니다. 일반적으로 VIF 값이 10 이상인 경우 다중공선성 문제가 있다고 판단합니다.

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기