반응형

안녕하세요

 

많은 사회과학연구자들이 빅데이터에 관심을 갖게되면서 통계프로그램 중 R에 관심을 갖고 있습니다. 

따라서 R 사용에 익숙해지기 위해 많은 연습들을 하고 있는데요 

그래서 이번 시간에는 많은 연구자들이 실제 연구에 적용하고 있는 회귀분석을 R로 해보는 시간을 갖도록 해보겠습니다.

 

1. 다중회귀분석이란?

 

다중회귀분석은 독립변수들이 종속변수에 미치는 영향을 분석하는 통계적 분석 방법 중 하나입니다. 다중회귀분석은 종속변수가 하나 이상의 독립변수에 영향을 받는 경우에 사용됩니다.

사회과학분야에서는 다음과 연구에 다중회귀분석을 활용합니다.

  • 스트레스, 지연행동, 학습된 무력감이 인터넷 중독에 미치는 영향
  • 직무스트레스, 사회적지지, 소진, 조직몰입이 이직의도에 미치는 영향
  • 분노, 적대감 및 스트레스가 신체 건강에 미치는 영향

다중회귀분석에서는 독립변수들과 종속변수의 관계를 설명하는 회귀식을 찾습니다.

이 회귀식은 독립변수들의 계수(coefficient)와 상수항(intercept)으로 구성되며, 이를 이용하여 종속변수의 값을 예측할 수 있습니다.

 

2. 다중회귀분석 코드

 

가장 일반적인 방법인 lm() 함수를 사용하는 방법을 알려드리겠습니다.

먼저, 예시 데이터를 생성해보겠습니다. 아래 코드는 x1, x2, x3, y 네 개의 변수를 갖는 100개의 데이터를 생성하는 코드입니다.

set.seed(123)  # 재현성을 위해 시드를 고정합니다.
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
y <- 1 + 2*x1 + 3*x2 + 4*x3 + rnorm(100, 0, 0.5)
data <- data.frame(x1, x2, x3, y)

이제 lm() 함수를 사용하여 다중 회귀분석을 수행합니다.

lm() 함수는 종속변수(y)와 독립변수(x1, x2, x3)를 지정하여 회귀모델을 생성합니다. 

model <- lm(y ~ x1 + x2 + x3, data = data)
summary(model)  # 모델 요약 정보 출력

위 코드에서 summary() 함수는 모델의 다양한 정보를 보여줍니다.

만약, 변수가  너무 많아서 변수를 일일이 타이핑 하기 귀찮다면 다음과 같이 코드를 입력하면 됩니다.

model <- lm(y ~ ., data = data[, -4])
summary(model)

위 코드에서 -4data 데이터프레임에서 y 열을 제외하고 선택하는 것을 의미합니다.

' . '은 모든 변수를 선택한다는 의미입니다. 따라서 y 열을 제외한 나머지 변수들을 자동으로 선택하게 됩니다.

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기