통계공부/Mplus

[Mplus] 회귀분석 syntax 설명

대학원생A씨 2020. 9. 22. 21:02
반응형

오랜만에 다시 포스팅을 올리게 되었다. 그동안 개인적인 사정으로 인해 티스토리에 글을 몇 달 동안 올리지 못했는데, 다시 블로그 관리를 하기로 마음 먹어 오랜만에 mplus syntax에 관한 포스팅을 올리고자 한다. 앞선 포스팅에서도 언급했듯이 mplus stata, sas, amos와 같은 통계 프로그램 중 하나로 탐색적 요인 분석, 구조방정식, 성장모형, 혼합모형, 생존분석, 다층모형, 베이지안 등 다양한 분석이 가능하다는 장점이 있다. 이와 같이 mplus 여러가지 고급통계분석도 가능하지만 통계분석의 기본이자 여러 고급통계분석의 기본 토대인 회귀분석 역시 가능하다. 물론 보통은 회귀분석을 spssstata와 같은 프로그램을 통해 분석하는 경우가 대부분이지만, mplus에서도 회귀분석이 가능하므로 오늘은 mplus에서의 회귀분석 syntax를 설명을 하고, 추가적으로 (다항)로지스틱 회귀분석까지 다루고자 한다.

 

*해당 포스팅은 MplusUser’s Guide에 올라온 예제를 예시로 설명하였다.

Mplus User's Guide: https://www.statmodel.com/ugexcerpts.shtml

 


 

TITLE:  this is an example of a simple linear
        regression for a continuous observed
        dependent variable with two covariates
  DATA: FILE IS ex3.1.dat;
  VARIABLE:    NAMES ARE y1 x1 x3;
  MODEL:       y1 ON x1 x3; 

 

Title에서 언급되어 있듯이, 해당 회귀분석의 종속변수는 연속변수이자 측정변수이며 독립변수의 개수는 2이다. Data에서는 분석에서 사용할 데이터가 ex3.1.dat라는 파일임을 명시하고 있으며, variable에서는 ‘ex.3.1.dat’라는 파일에서 변수명이 차례대로 y1, x1, x3로 저장되어 있음을 알려주고 있다. 회귀분석을 진행하기 위해 y1을 종속변수로 하여 독립변수 x1, x3를 투입하였다.

 

 

모델을 돌리면 기본적으로 변수 y1, x1, x3에 대한 기초분석 결과가 제시된다(아래 사진 참고).

 

사진에서와 같이 변수 y1, x1, x3n값과 평균, 분산, 왜도/첨도, 최솟값/최댓값, 백분위수, 중앙값이 표기된다. 

 

 

회귀분석 결과는 아래 그림과 같다.

 

해당 분석결과에서 estimate비표준화회귀계수에 해당하며, 표준화회귀계수가 알고 싶을 때는

syntax의 OUPUT 부분에 추가적으로 StdYX를 기입해주어야 한다.

 

 

TITLE:  this is an example of a simple linear
        regression for a continuous observed
        dependent variable with two covariates
  DATA: FILE IS ex3.1.dat;
  VARIABLE:    NAMES ARE y1 x1 x3;
  MODEL:       y1 ON x1 x3;
OUTPUT: StdYX

 


 

이번에는 회귀분석의 연장선인 로지스틱 회귀분석을 알아보도록 하자.

 

TITLE:  this is an example of a logistic regression   
DATA: FILE IS ex3.5.dat;
 
VARIABLE:    NAMES ARE u1 x1 x3;
              
                 CATEGORICAL IS u1;
 
ANALYSIS:    ESTIMATOR = ML;
 
MODEL:       u1 ON x1 x3;

 

위에서의 회귀분석 syntax와 차이점을 살펴보면 variable 부분에 CATEGORICAL IS u1;이 추가된 것 밖에 없다. ANALYSIS: ESTIMATOR = ML;도 추가되었지만 아까 위의 회귀분석 syntax에서 생략해서 그렇지 회귀분석에서도 estimatorml로 설정되어 있기 때문에 이 부분은 넘어가도록 한다. 다시 variable 부분으로 돌아와 CATEGORICAL IS u1; 부분에서 u1이 해당 분석의 종속변수, 로지스틱 분석에서 종속변수는 이항변수이기 때문에 mplus 프로그램에게 u1이라는 변수가 범주형 변수임을 알려주는 명령어를 기입한 것이다.

 

여기서 추가적으로 설명하자면 종속변수의 범주가 3개 이상이 되면 categoricalnominal로 바꿔주면 된다.

 

TITLE:  this is an example of a multinomial
          logistic regression   
DATA: FILE IS ex3.6.dat; 
VARIABLE:    NAMES ARE u1 x1 x3;       
                  NOMINAL IS u1; 
MODEL:  u1 ON x1 x3;

 

반응형