로지스틱 회귀 분석의 이해와 R에서의 실행

통계/R

로지스틱 회귀 분석의 이해와 R에서의 실행

MKKM 2023. 10. 11. 22:13

로지스틱 회귀 분석은 이진 결과 변수의 확률을 예측하기 위한 통계적 방법입니다. R에서는 어떻게 이 분석을 수행하고 결과를 해석하는지 알아보겠습니다.

1. 로지스틱 회귀 분석 (Logistic Regression) 이란

로지스틱 회귀분석은 회귀 분석의 일종으로, 종속 변수가 범주형인 경우에 사용됩니다.
특히, 종속 변수가 이진 분류(예: 예/아니오, 1/0)인 경우에 주로 활용되며, 이를 통해 주어진 독립 변수들의 조합으로 특정 사건의 발생 확률을 예측합니다.
선형 회귀와 달리 로지스틱 회귀는 로짓 변환을 사용하여 예측값이 0과 1 사이의 확률로 나타나게 됩니다.
이 방법은 의학, 금융, 마케팅 등 다양한 분야에서 분류 및 확률 예측 문제에 사용됩니다.

2. R에서 로지스틱 회귀 분석 (Logistic Regression)하는 법

R에서 로지스틱 회귀분석을 수행하기 위해 주로 glm() 함수를 사용합니다.
glm() 함수는 일반화 선형 모델을 구축할 때 사용되며, 이진 로지스틱 회귀분석을 수행하기 위해서는 'family' 인수를 'binomial'로 설정해야 합니다.

예시 코드:

# 예시 데이터 생성
data <- data.frame(
  outcome = c(1,0,1,0,1,1,0),
  predictor = c(2.5, 3.2, 2.8, 1.6, 3.6, 2.2, 2.9)
)

# 로지스틱 회귀분석 수행
model <- glm(outcome ~ predictor, data=data, family=binomial)
summary(model)

이 코드를 통해 주어진 예측 변수를 기반으로 이진 결과를 예측하는 로지스틱 회귀 모델을 구축하고 분석 결과를 출력할 수 있습니다.

3. 분석결과 해석하는 법

glm() 함수의 결과로 반환되는 주요 항목은 추정된 회귀 계수, 표준 오차, z-값 및 p-값입니다.
p-값은 각 변수의 유의성을 나타내며, 이 값이 작을수록 해당 변수는 결과 변수와의 관계가 통계적으로 유의미하다는 것을 의미합니다.

예시 결과 해석:

# 예시 결과 출력
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)
# (Intercept)  0.5402     1.2710   0.425    0.671
# predictor   -0.1987     0.3744  -0.530    0.596
# ...

위 결과에서 predictor의 p-값은 0.596로, 0.05보다 크므로 predictor 변수는 결과 변수와의 관계가 통계적으로 유의미하지 않다고 판단할 수 있습니다.

아래 포스팅도 참고해 보세요!

▶ R에서 데이터 정렬하기
▶ 데이터 프레임의 열과 행 삭제하는 법
▶ R 데이터 프레임에서 열과 행의 합계를 구하는 법
▶ [R]데이터전처리 할때 필요한 10가지 코드
▶ R의 기본 개념, 예시코드와 알아보는 리스트(List)

저작자표시 비영리 변경금지

티스토리