로지스틱 회귀 분석의 이해와 R에서의 실행
로지스틱 회귀 분석은 이진 결과 변수의 확률을 예측하기 위한 통계적 방법입니다. R에서는 어떻게 이 분석을 수행하고 결과를 해석하는지 알아보겠습니다.
목차
1. 로지스틱 회귀 분석 (Logistic Regression) 이란
로지스틱 회귀분석은 회귀 분석의 일종으로, 종속 변수가 범주형인 경우에 사용됩니다.
특히, 종속 변수가 이진 분류(예: 예/아니오, 1/0)인 경우에 주로 활용되며, 이를 통해 주어진 독립 변수들의 조합으로 특정 사건의 발생 확률을 예측합니다.
선형 회귀와 달리 로지스틱 회귀는 로짓 변환을 사용하여 예측값이 0과 1 사이의 확률로 나타나게 됩니다.
이 방법은 의학, 금융, 마케팅 등 다양한 분야에서 분류 및 확률 예측 문제에 사용됩니다.
2. R에서 로지스틱 회귀 분석 (Logistic Regression)하는 법
R에서 로지스틱 회귀분석을 수행하기 위해 주로 glm()
함수를 사용합니다.glm()
함수는 일반화 선형 모델을 구축할 때 사용되며, 이진 로지스틱 회귀분석을 수행하기 위해서는 'family' 인수를 'binomial'로 설정해야 합니다.
예시 코드:
# 예시 데이터 생성
data <- data.frame(
outcome = c(1,0,1,0,1,1,0),
predictor = c(2.5, 3.2, 2.8, 1.6, 3.6, 2.2, 2.9)
)
# 로지스틱 회귀분석 수행
model <- glm(outcome ~ predictor, data=data, family=binomial)
summary(model)
이 코드를 통해 주어진 예측 변수를 기반으로 이진 결과를 예측하는 로지스틱 회귀 모델을 구축하고 분석 결과를 출력할 수 있습니다.
3. 분석결과 해석하는 법
glm()
함수의 결과로 반환되는 주요 항목은 추정된 회귀 계수, 표준 오차, z-값 및 p-값입니다.
p-값은 각 변수의 유의성을 나타내며, 이 값이 작을수록 해당 변수는 결과 변수와의 관계가 통계적으로 유의미하다는 것을 의미합니다.
예시 결과 해석:
# 예시 결과 출력
# ...
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) 0.5402 1.2710 0.425 0.671
# predictor -0.1987 0.3744 -0.530 0.596
# ...
위 결과에서 predictor의 p-값은 0.596로, 0.05보다 크므로 predictor 변수는 결과 변수와의 관계가 통계적으로 유의미하지 않다고 판단할 수 있습니다.
아래 포스팅도 참고해 보세요! ▶ R에서 데이터 정렬하기 ▶ 데이터 프레임의 열과 행 삭제하는 법 ▶ R 데이터 프레임에서 열과 행의 합계를 구하는 법 ▶ [R]데이터전처리 할때 필요한 10가지 코드 ▶ R의 기본 개념, 예시코드와 알아보는 리스트(List) |