반응형

 

안녕하세요

오늘은 빅데이터, 딥러닝, 머신러닝을 하는 사람들은 원핫인코딩이라고 부르고
통계를 하는 사람들은 더미변수라고 부르는 것을 SPSS에서 생성하는 방법에 대해서 알아보겠습니다



더미변수는 우리가 흔히 알고 있는 성별, 학년, 직업 등과 같은 범주형 변수를 연속형 변수로 바꿔 회귀분석에 넣기 위해 사용합니다.

예를 들어 직업을 1을 무직, 2를 학생, 3을 주부, 4를 기타로 코딩했다고 했을 경우에 1에서 4까지의 숫자가 높낮이가 있는게 아니기 때문에 유의하다고 해서 결과를 해석할 수 없기 때문이죠

그렇기에 더미변수로 전환해서 회귀분석을 수행하는 게 일반적인 방법입니다


더미변수는 기준이 되는 변수를 제외하기 때문데 범주의 개수 보다 1개 적게 만들어 지며 0 또는 1의 값을 가집니다. 위의 예시에 나온 직업에서는 4개의 범주가 있기 때문에 3개의 변수만 생성되는거죠

예시 데이터를 직접 다운받고 살펴봅시다

더미 예시데이터.sav
0.00MB

 



데이터는 성별, 학년, 사용핸드폰요금 으로 구성되어있습니다

빈도분석을 하면



이렇게 결과가 나옵니다

‘전통적인 방법’의 더미변수 만드는 방법은 이렇습니다.
여기서는 학년만 예시로 들겠습니다.

학년은 1학년, 2학년, 3학년이 있고 이번 실습에서는 1학년을 기준으로 잡겠습니다.
일반적으로 더미분석에서 기준을 잡는 방법은 따로 정해져 있지 않습니다 연구자가 중요하게 생각하는걸 잡으면 됩니다

그래야지 회귀분석 결과를 기준값에 비해 정적으로 영향을 미쳤다 아니면 부적으로 영향을 미쳤다라고 설명을 할 수가 있습니다


변환 → 변수계산을 클릭합니다

 



아래 조건을 클릭합니다



다음 조건을 만족하는 케이스 포함을 클릭하고
2학년을 모두 선택해야하니
학년 = 2를 입력 하고 계속을 클릭합니다




다시 변수계산화면으로 넘어옵니다

그 다음 하단에 조건에 학년 = 2 가 입력된 것을 확인한 다음에
숫자표현식에는 1을 입력하고
목표변수에는 학년2 라고 입력 하고 확인을 클릭합니다

 



이제 3학년을 만들어 줍니다 학년도 우선 변수 계산은 똑같이 하지만 조건에서 학년 = 3으로 설정을 해야합니다



이번에는 아까와 다르게 조건에 학년 = 3, 목표변수가 학년3으로 설정 되어있습니다
확인을 클릭합니다

 



90%정도 완성되었습니다
빈칸을 0으로 채워야 합니다




변환 → 같은 변수로 코딩변경을 클릭합니다.



두 변수를 오른쪽 칸으로 옮겨주고 
기존값 및 새로운 값을 클릭합니다.

 



1. 좌측에 시스템 결측값을 클릭합니다
2. 우측에 값에 0을 입력합니다
3. 추가버튼을 클릭합니다
4. SYSMIS --> 0이 추가 된걸 확인하고 계속 버튼을 클릭합니다



왼쪽 및 확인 버튼을 클릭하면 더미변수가 생성된 것을  확인할 수 있습니다



사실 이렇게 하면 시간 엄청 오래 걸립니다



이딴거 필요 없이 SPSS 22버전부터 빠르게 생성하는 법 알려드립니다.

 


변환 → 더미변수 작성을 클릭합니다.



1. 왼쪽에서 더미변수 선택
2. 가운데 화살표 버튼 클릭해서 변수 오른쪽으로 옮기기
3. 오른쪽 네모박스에 변수 옮겨졌는지 확인
4. 루트 이름에 더미변수이름 만들기(보통 변수이름+더미 라고 적으면 무난함)
5. 확인버튼 누르기
순서로 실행하면 됩니다

 



생성된 더미 변수는 바로 확인이 가능합니다
다만 이렇게 생성된 변수는 기준 변수를 컴퓨터가 알 수 없기에 연구자가 판단하여 삭제해야합니다. 언더바(_)뒤에 붙는 숫자가 변수의 그룹숫자 입니다



만약 더미변수를 추가를 반복하시면 됩니다 
여기서는 성별, 학년, 사용핸드폰요금 이니깐 3번만 하면 됩니다





이번에는 더미변수 생성을 알아보았습니다.

더미변수는 전통적인 통계뿐만 아니라 빅데이터분야에서도 많이 활용되고 있는 중요한 기법입니다

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기