R에서 Cox 비례위험모형 생존분석
생존 분석은 이벤트 발생까지의 시간을 분석하는 통계적 방법 중 하나입니다. R에서는 다양한 패키지와 함수를 이용하여 Cox 비례위험모형을 사용한 생존분석을 쉽게 수행할 수 있습니다. 본 문서에서는 이러한 분석 방법과 결과 해석을 소개합니다.
목차
1. Cox 비례위험모형 생존분석 이란
Cox 비례위험모형, 종종 Cox 회귀 모델이라고도 불린다, 생존 분석에서 사용되는 통계 모델 중 하나입니다.
이 모형은 생존 시간과 하나 이상의 예측 변수 사이의 관계를 설명하는 데 사용됩니다.
중요한 특징은 시간에 따른 위험률이 예측 변수의 영향을 받되, 시간의 함수로는 변하지 않는다는 비례 위험 가정을 기반으로 한다는 것입니다.
따라서, 이 모형은 위험 함수의 기본 형태에 대한 가정 없이 생존 데이터를 분석할 수 있게 해줍니다.
2. R에서 Cox 비례위험모형 생존분석하는 법
R에서 Cox 비례위험모형을 사용한 생존분석은 주로 `survival` 패키지의 `coxph` 함수를 사용합니다.
먼저, 해당 패키지를 설치하고 로드한 후 `coxph` 함수를 사용하여 모델을 구축하고 결과를 요약하여 분석할 수 있습니다.
# 패키지 설치
install.packages("survival")
# 패키지 로드
library(survival)
# 데이터 준비 (예시: lung 데이터셋)
data(lung)
# Cox 모델 구축
cox_model <- coxph(Surv(time, status) ~ age + sex + ph.ecog, data = lung)
# 모델 요약
summary(cox_model)
위의 예시코드는 `lung` 데이터셋의 생존 시간과 상태에 대해 나이, 성별, ph.ecog 값에 따른 Cox 모델을 구축하는 방법을 보여줍니다.
`summary` 함수를 통해 모델의 결과를 요약하여 출력할 수 있습니다.
3. 분석결과 해석하는 법
`coxph` 함수의 결과는 여러 부분으로 구성됩니다.
가장 중요한 것은 각 예측 변수의 계수, 표준 오차, z 값, p-값 등입니다.
계수는 각 예측 변수의 위험비를 나타내며, 이 값이 1보다 크면 해당 변수의 위험 증가를, 1보다 작으면 위험 감소를 의미합니다.
p-값은 각 예측 변수의 통계적 유의성을 평가하는 데 사용됩니다. 일반적으로 p-값이 0.05 미만인 경우 해당 변수는 생존 시간에 유의한 영향을 미친다고 판단됩니다.
# 위에서 구축한 모델의 요약 결과 출력
summary(cox_model)
위의 코드를 통해 출력된 요약 결과에서 각 변수의 계수, 표준 오차, z 값, p-값 등을 참조하여 모델의 해석을 수행할 수 있습니다.
이를 바탕으로 특정 예측 변수의 생존 시간에 대한 영향력과 그 방향성을 결정할 수 있습니다.
아래 포스팅도 참고해 보세요! ▶ R에서 데이터 정렬하는 방법 ▶ RStudio 단축키 모음 ▶ R 데이터 프레임에서 열과 행의 합계를 구하는 법 ▶ R에서 결측치 처리하기 ▶ R에서 Markdown 사용하기 |