회귀분석 할때 통제변수 선정방법
안녕하세요
회귀분석으로 논문을 쓰시는 분들 중에 가끔 통제변수를 넣으라는 피드백을 받는 분들이 있습니다.
일반적 특성을 무작정 넣어서 회귀분석을 돌리면 알제곱값이 무지성으로 커지는 문제, 다중공선성이 상승하는 문제가 발생할 수 있습니다.
따라서 이번시간에는 올바르게 통제변수를 산정하는 방법을 알아보겠습니다.
1. 통제변수란
통제변수는 회귀분석에서 사용되는 개념 중 하나로, 종속변수와 독립변수 간의 인과관계를 보다 정확하게 추정하기 위해 사용되는 변수입니다.
일반적으로 회귀분석에서 독립변수와 종속변수 사이의 관계를 파악할 때, 다른 요인들이 종속변수에 영향을 미칠 수 있습니다. 이 때문에 독립변수와 종속변수 사이의 관계를 제대로 이해하려면, 이러한 다른 요인들의 영향을 제거하거나 줄여줄 필요가 있습니다.
이때 통제변수는 종속변수와 독립변수 사이의 인과관계를 보다 정확하게 추정하기 위해, 독립변수와 종속변수 간의 관계에 영향을 미칠 수 있는 다른 요인들을 통제(control)하는 데 사용됩니다. 따라서 통제변수를 추가하면, 독립변수와 종속변수 간의 관계를 보다 정확하게 파악할 수 있습니다.
2. 통제변수의 예시
통제변수의 예시는 다양하게 존재하지만, 간단한 예시를 들어볼게요. 예를 들어, 연구자가 어떤 회사의 직원들의 연봉에 대한 연구를 진행하고자 한다고 가정해봅시다. 이 때, 연봉에 영향을 미치는 다른 요인들 중 하나로 직급이나 교육 수준 등이 있을 수 있습니다.
이 경우에는 직급이나 교육 수준과 연봉 간의 인과관계를 보다 정확하게 파악하기 위해, 이러한 변수들을 통제변수로 사용할 수 있습니다. 즉, 직급이나 교육 수준이 연봉에 미치는 영향을 고려하여, 직급이나 교육 수준을 통제한 후, 남은 변수들만을 이용하여 연봉과의 관계를 분석하면, 연봉과 다른 변수들 간의 인과관계를 보다 정확하게 추정할 수 있습니다.
다른 예시로는, 나이, 성별, 소득 수준 등이 있을 수 있습니다. 이러한 변수들은 종속변수와 독립변수 사이의 인과관계를 정확히 파악하기 위해 고려될 수 있으며, 이를 통제함으로써 독립변수의 실제 영향력을 파악하는 데에 도움을 줄 수 있습니다.
즉, 보통은 연령, 성별, 학력, 소득 수준, 결혼 여부, 거주지역, 종교 등과 같은 일반적 특성을 통제 변수를 주로 통제변수로 사용합니다.
3. 통제변수의 선정방법
보통 관련 서적을 읽어보면 다음과 같이 쓰여 있습니다.
“통제변수를 선정하는 방법은 다양하지만, 일반적으로는 연구 주제에 대한 선행 연구나 이론적 배경을 토대로 선정한다. 이를 통해 어떤 변수가 종속변수와 독립변수 간의 관계에 영향을 줄 가능성이 높은지 예상할 수 있다.”
오늘날 대부분의 연구는 회귀분석이나 구조방정식을 위주로 하는 인과관계연구를 위주로 하고 대부분의 이론적 연구에서는 일반적 특성에 따른 차이가 존재가 있다고 해서 어떤 변인의 결과가 달라진다고 손쉽게 이야기하지 않습니다. 따라서 이럴 경우, 본인의 연구에서 통제변수의 선별근거를 만들어야 합니다.
앞선 근거들을 토대로 통제변수를 선정하는 가장 쉬운방법은
“내 연구에서 t-test나 ANOVA와 같은 차이분석을 실행하고 종속변수에서 차이가 있을 경우, 통제변수로 사용한다.”
입니다.
4. 통제 변수 활용 실습
실습을 위해 데이터 준비했습니다.
다운받아서 실행해보면 데이터는 아래와 같이 구성되어있습니다.
우선 차이분석을 실행해봅니다.
성별은 남자, 여자 두 집단으로 되어있으니 t-test를 하겠습니다.
상단메뉴에 분석(A) → 평균 → 독립표본T검정을 클릭합니다.
집단변수에는 성별, 검정변수에는 검정할 모든 변수를 넣어주고 확인을 클릭하여 결과를 확인합니다.
분석결과에서는 종속변수의 유의확률만 확인하면 됩니다.
독립변수의 차이여부는 통제변수를 선정할 때는 필요하지 않습니다.
즉, 독립변수에서만 성별에 따른 차이가 있으면 통제변수로 선정하지 않습니다.
오로지 종속변수에서 차이가 있으면 통제변수로 선정합니다.
그 변수에 따른 종속변수에 차이가 있기 때문에 결과에 변화를 일으킬 수 있다고 볼 수 있기 때문입니다.
결과를 확인했으면 일반적 특성 변수를 더미 변수로 만들어야합니다.
더미변수를 빠르게 만드는 방법은 아래 포스팅을 참고해주세요.
https://speedspeed.tistory.com/22
더미변수까지 생성이 끝났으면 회귀분석을 하겠습니다.
상단메뉴에 분석(A) → 회귀분석(R) → 선형(L)을 클릭합니다.
여기서는 정석적인 방법인 단계적 회귀분석으로 진행하겠습니다.
1단계에서는 독립변수에 더미변수만 투입합니다.
다음 단계로 넘어가려면 붉은 박스안에 있는 다음버튼 클릭을 꼭 해주세요!
독립변수1, 독립변수2를 모두 투입하고 확인 버튼을 클릭하여 결과를 확인합니다.
분석결과는 다음과 같습니다.
성별의 통제효과가 투입되었음에도 독립변수1과 독립변수2는 종속변수에 통계적으로 유의하게 정적 영향을 미치는 것으로 나타났습니다.
이러한 결과를 논문형식 표로 작성하면 아래와 같습니다.
깔끔하네요
이번에는 통제변수에 대해서 알아보았습니다.
통제변수만큼 애매한게 없습니다.
만약 연구에서 너무 많은 일반적 특성을 조사했는데 무작정 통제변수를 추가하라는 피드백을 받았으면 해당 방법을 사용하시면 좀 더 양질의 연구를 하실 수 있을 겁니다.