통계공부/Stata

[Stata] 로지스틱 회귀분석 관련 명령어: logit, mlogit

대학원생A씨 2020. 10. 8. 08:45
반응형

이번 포스팅에서는 이항로지스틱 회귀분석, 다항로지스틱 회귀분석에 관한 명령어를 설명하고자 한다. 명령어 설명을 위해 stata에서 기본적으로 제공하고 있는 데이터를 사용하고자 하며, 기본 데이터 사용을 위한 명령어는 sysuse로 해당 명령어에 대한 설명은 이전 포스팅을 참고하길 바란다.

2020/03/13 - [통계 공부/Stata] - [Stata] 기본 명령어(1): help, cd, set more off, sysuse

 

[Stata] 기본 명령어(1): help, cd, set more off, sysuse

이번 포스팅에서는 Stata의 기본 명령어에 대해 알아보고자 한다. 여기서 말하는 기본 명령어란, Stata 프로그램의 세팅과 관련된 명령어와 데이터(혹은 변수) 조작과 관련한 기초적인 명령어들을

graduationplease.tistory.com


1. logit

logit 종속변수 독립변수: 이항로지스틱 분석을 실행하는 stata 명령어의 기본 형태
logit 종속변수 독립변수, or : 이항로지스틱 분석결과에서 승산비를 제시

 

먼저 stata에서 cancer 데이터를 불러오도록 하자

sysuse cancer

 

해당 데이터는 암환자를 대상으로 실험 당시 연구참여자의 연령(age), 치료를 위한 약 유형(drug), 실험 기간 동안 죽었는지 여부(died), 실험 시작부터 죽음까지 혹은 연구 종료까지의 기간(studytime)을 변수로 가지고 있다. 이 중 died라는 변수를 종속변수로, age를 독립변수로 이항로지스틱 분석을 돌려보자.

 

logit died age

 

위의 명령어를 입력하면 아래 사진과 같은 분석결과가 나오는데, 로지스틱 회귀분석은 연구결과를 승산비로 설명하는 경향이 있기에 or 옵션을 추가하여 승산비를 확인하는 것이 좋다.

 

 

logit died age, or

 

해당 명령어를 돌리면 위에서의 결과에 coefficient 부분이 odds ratio로 변했음을 알 수 있다.

 

 

2. mlogit

mlogit 종속변수 독립변수: 다항로지스틱 분석을 실행하는 stata 명령어의 기본 형태
mlogit 종속변수 독립변수, rrr : 다항로지스틱 분석결과에서 승산비를 제시
mlogit 종속변수 독립변수, base(1) : 종속변수 1값을 기준집단으로 설정하여 다항로지스틱 분석결과 제시

 

먼저 stata에서 voter 데이터를 불러오도록 하자

sysuse voter

 

해당 데이터는 1992년에 어떠한 선거후보자에게 투표를 했는지에 관한 데이터인데, candidat이라는 변수에 bush, perot, clinton을 응답할 수 있다. 따라서 이 candidat이라는 변수를 종속변수로 설정하고 이에 영향을 미치는 독립변수로 pfrac를 넣어보자. 그럼 다음과 같은 명령어를 실행할 수 있다.

 

mlogit candidat pfrac
mlogit candidat pfrac, rrr

 

이항로지스틱분석에서와 마찬가지로 다항로지스틱분석에서도 승산비를 제시하라는 옵션을 넣으면 coefficient 대신 승산비가 나오는 것을 볼 수 있다. 더불어 다항로지스틱은 이항로지스틱과 달리 기준집단을 설정할 수 있는 옵션이 있는데 바로 base(숫자)를 넣으면 된다. 예를 들어, 기본 분석에서는 clinton을 기준집단으로 분석이 진행되었는데 stata에서는 기본적으로 종속변수의 응답 중 N이 가장 큰 경우나 응답 범주를 코딩한 숫자가 낮은 경우를 기준 집단으로 설정한다. 그런데 만약 연구자가 bush를 기준집단으로 설정하고 싶다면 bush의 코딩 값인 3을 base 괄호 안에 입력하면 된다.

 

mlogit candidat pfrac, base(3)

 

그러면 위의 사진과 같이 Bush가 base outcome으로 설정된 것을 확인할 수 있다. 물론 여기서 rrr이라는 옵션을 추가하여 승산값을 확인할 수도 있다.

반응형