통계공부/Mplus

[Mplus] 잠재계층분석(LCA)/잠재프로파일분석(LPA) syntax 설명

대학원생A씨 2020. 4. 20. 09:00
반응형

이번 포스팅에서는 Mplus 프로그램에서 사용하는 잠재계층분석(Latent Class Analysis)잠재프로파일분석(Latent Profile Analysis) 신택스를 설명하고자 한다. 잠재계층분석과 잠재프로파일분석은 회귀분석과 같은 변수중심적 분석(variable-centered analysis)이 아닌 개인중심적 분석(person-centered analysis)으로 변수의 분포에 있어 이질적인 분포가 있다고 가정한다. 예를 들어, 청소년기 연령에 따른 비행 행동 빈도를 알아본다고 했을 때, 변수 중심의 분석은 전체적인 경향을 살펴본다면 개인 중심의 분석은 비행 행동 패턴이 개인에 따라 다양할 수 있음을 가정한다. 이와 같은 계층구분에 사용되는 분석방법 중에 K-means 군집분석(cluster analysis)도 있지만, K-means 군집분석은 잠재계층분석 혹은 잠재프로파일분석과 달리 통계적 검증절차를 거치지 않기에 추전하는 분석방법이 아니다. 잠재계층분석과 잠재프로파일분석의 Mplus syntax는 상당히 간단한 편이니, 이번 포스팅을 통해 mplus로 잠재계층분석/잠재프로파일분석을 배워보는 것을 추천한다.

 


 

TITLE: this is an example of a LCA with binary latent class indicators
DATA: FILE IS ex7.3.dat;
VARIABLE: NAMES ARE u1-u4 x1-x10;
               USEVARIABLES = u1-u4 ;
              CLASSES = c(2);
              CATEGORICAL= u1-u4 ;
ANALYSIS: type=mixture;
OUTPUT: tech11 tech14;

 

이번 포스팅의 예제는 Mplus의 User's Guide를 일부 수정하여 올렸다.

 

먼저 TITLE을 보면 알 수 있듯이, 해당 분석파일은 이분형 변수를 종속변수로 하는 잠재계층분석 파일이다. DATA에서는 분석할 파일로 ex7.3.dat을 사용한다는 것을 명시하였으며, 해당 데이터의 변수는 u1, u2, u3, u4, x1 ~ x10으로 구성되어 있음을 알 수 있다(VARIABLE: NAMES ARE u1-u4 x1-x10;). 

 

USEVARIABLES 부분을 보면 데이터의 모든 변수를 다 사용할 것이 아니라, u1-u4 변수만을 사용할 것이라고 명시하였다. 그리고 아래 CLASSES = c(2);가 중요한 코드인데, 잠재계층의 수가 2개임을 가정하고 분석을 돌려달라는 것을 의미한다. 만약 3개의 잠재계층 분석결과가 궁금하다면 c(2)를 c(3)로 수정하여 분석을 진행하면 된다. 그리고 아래 categorical 부분은 종속변수 u1-u4가 범주형 변수임을 나타내는 코드이다.

 

분석방법을 나타내는 analysis는 type=mixture;를 입력해주면 되고 Ouput으로 tech11과 tech14를 써준다. Tech11은 Lo-Mendell-Rubin Adjusted LRT Test 결과를, tech14는 Bootstrapped Likelihood Ratio Test 결과를 표시해주는 코드이다. 잠재계층분석 논문을 보면 자주 보이는 표현 중 하나가, 잠재계층의 수를 결정하기 위해 LMRT와 BLRT를 검토하였다는 이야기가 나온다. 여기서 말하는 LMRT가 바로  Lo-Mendell-Rubin Adjusted LRT Test이고, BLRT는 Bootstrapped Likelihood Ratio Test이다.

 

마지막으로 잠재계층의 실제적 유용성을 평가하기 위하여 경쟁모델 간 비교의 상대적 적합도를 평가하는 LMRT(Lo-Mendell-Rubin likelihood ratio test)를 검토하였다. 잠재계층의 수가 다르며 관찰변인들이 동일하게 형성된 경우 LMRT는 현재 계층수와 하나 적은 k-1 계층수의 비교를 유의수준으로 나타내어 검증하는데, 이는 현재 계층 모형이 하나 적은 k-1계층보다 적합도 측면에서 우수하다는 것을 의미한다(Pastor, Barron, Miller & Davis, 2007).

출처: 이정민, 정혜원(2016). 잠재프로파일 분석을 통한 청소년의 휴대전화 사용과 의존도 유형 분류 및 관련 변인들의 영향력 검증. 한국청소년연구, 27(2), 121-157.

 

위와 같은 코드를 돌린 후, 결과 파일을 보면서 최적의 잠재계층 수를 결정해야 한다. 이 떄 사용할 수 있는 적합도 지수로는 AIC(Akaike Information Criteria), BIC(Bayesian Information Criteria)와 Entropy가 있으며, 앞서 언급한 LMRT와 BLRT의 검증 결과도 활용한다. 

 


잠재계층분석(LCA)과 잠재프로파일분석(LPA)는 종속변수가 범주형 변수인지 혹은 연속형 변수인지에 따라 구분된다. 즉, 잠재계층분석은 종속변수가 범주형 변수인 경우이며, 잠재프로파일분석은 종속변수가 연속형 변수인 경우이다. 따라서 이 둘의 mplus code 역시 큰 차이가 없다.

 

TITLE: this is an example of a LPA
DATA: FILE IS ex7.4dat;
VARIABLE: NAMES ARE u1-u4 x1-x10;
              USEVARIABLES = u1-u4 ;
                       CLASSES = c(2);
ANALYSIS: type=mixture;
OUTPUT: tech11 tech14;

 

Mplus 홈페이지에서는 따로 잠재프로파일분석 코드를 올려두지 않아, LCA 예제를 일부 수정하여 LPA 예제를 만들었다. 앞선 LCA 코드와 거의 동일함을 알 수 있는데, 차이점이라 하면 종속변수가 범주형 변수임을 언급해주는 CATEGORICAL= u1-u4 ;가 삭제되었다는 것이다. 당연히 잠재프로파일에서는 종속변수가 연속형 변수이기 때문에 해당 코드를 삭제해주고, 나머지 syntax는 동일하게 유지하여 분석을 진행하면 된다.

반응형