통계공부/Stata

논문 따라 패널 데이터 분석하기 - 연구참여자의 일반적 특성: 신나리, 안재진(2014)(5)

대학원생A씨 2021. 7. 1. 09:15
반응형

지난 포스팅에서 신나리, 안재진(2014) 연구에서 연구참여자의 일반적 특성에 대해 알아보았다. 구체적으로 해당 연구는 연구참여자의 일반적 특성으로 어머니의 연령, 자녀 월령, 자녀 성별, 어머니의 결혼지위, 어머니의 최종학력, 자녀 수, 월 가구소득을 기술하였으며, 이 때 미취업모 집단과 취업모 집단을 구분하여 통계치를 제시하였다. 또한 해당 연구는 미취업모와 취업모 집단의 특성을 구분하여 살펴보는데 초점이 맞춰져 있어, 인구학적 특성에 있어 집단 간 차이가 나는지 살펴보기 위해 t 혹은 카이제곱 검정을 실시하였다. 이번 포스팅에서는 이를 검증하는 과정을 다룰 것이다.


위에서 언급한 인구학적 특성 중 명목변수(혹은 서열변수)에 해당하는 것은 자녀 성별, 어머니의 결혼지위, 어머니의 최종학력, 그리고 자녀 수가 있다. 그리고 나머지 변수들인 어머니의 연령과 자녀 월령, 월 가구소득은 연속변수에 해당한다. 따라서 미취업모 집단과 취업모 집단의 인구학적 특성에 차이가 있는지 살펴볼 때, 명목변수 혹은 연속변수인지에 따라 다른 명령어를 사용할 것이다. 구체적으로 명목변수는 tab을, 연속변수는 ttest를 활용할 것이다.

 

두 집단 간 명목변수의 분포에 차이가 있는지 살펴보기 위해서는 먼저 분할표 분석에 대한 개념을 이해해야 한다. 분할표분석에서는 카이제곱 검정을 활용하는데, 이 때의 영가설은 통계적 독립성을 영가설로 설정한다. 그리하여 관측도수와 기대도수 간의 차를 이용하여 검정을 진행하기 때문에, 영가설이 기각되는 경우 두 집단 간 명목변수의 분포에 차이가 있다고 볼 수 있다. ☞ 분할표 분석 포스팅 참고

 

홍두승, 설동훈(2012). 사회조사분석 - Ch10. 분할표분석~Ch11. 집단 간 비교분석

홍두승과 설동훈이 집필한 「사회조사분석」 내용을 정리한 포스팅 시리즈를 작성하고 있다. 이전 내용들과 관련해서는 아래 포스팅 목록을 참고하면 되겠다. ☞ 「사회조사분석」 포스팅 시

graduationplease.tistory.com

 

그렇다면 먼저 미취업모와 취업모 간 아동 성별 분포에 차이가 있는지 살펴보자. 이 때 사용할 명령어는 tab이다. 대신 카이제곱 검정을 위해 옵션으로 chi2를, 퍼센트를 알아보기 위해 col 혹은 row를 붙일 것이다.

☞ tab 명령어 설명

 

tab DCh09dmg001 m_work , col chi2

 

빨간 네모 부분을 보면 알 수 있듯이, 영가설을 기각할 수 없기에 미취업모와 취업모 간에 아동 성별 분포에 있어 차이가 있다고 볼 수 없다. 그렇다면 이번에는 최종 학력 분포에 있어 차이를 보이는지 살펴보자. 위의 명령어를 그대로 사용하되 변수만 바꿔주면 된다.

 

tab m_edu m_work , col chi2

이번에는 영가설을 기각하는 결과가 나와 미취업모와 취업모 간에 최종 학력 분포에 있어 차이를 보인다고 이야기할 수 있다. 참고로 최종학력 변숫값을 설명하자면 1은 고졸 이하, 2는 전문대졸, 3은 4년제 대졸, 4는 대학원 이상을 의미한다. 대체로 미취업모보다 취업모의 최종학력이 높은 분포를 보이고 있다.

 

그럼 이번에는 연속변수 중 월 가구소득에서 취업모와 미취업모 간 차이를 보이는지 살펴보자. 앞서 언급하였듯이 월 가구소득은 연속변수이기 때문에 카이제곱 검정이 아닌 집단 간 평균을 비교하는 t-검정을 이용한다. 이를 위해 사용할 명령어는 robvarttest이다. ttest는 직관적으로 t-검정을 실행하는 명령어임을 알 수 있고, robvar는 t검정을 하기 전 등분산성 가정이 성립되는지 확인하기 위해 필요한 명령어이다. 

☞ ttest, robvar 명령어 설명

 

[Stata] t-test 관련 명령어: robvar, ttest

이번 포스팅에서는 t-test를 진행할 수 있는 stata 명령어에 대해 알아보고자 한다. 오늘은 이론적인 배경 없이 바로 명령어 설명에 들어갈 것인데, 꼭 짚고 넘어갈 내용이 있다. 바로 t-test를 할 때

graduationplease.tistory.com

 

robvar DHu09ses006, by(m_work)

두 집단 간의 둥분산성 확인 결과

빨간 네모 안의 결과를 보면, 유의수준 .05에서 영가설을 기각할 수 없으므로 등분산성 가정이 성립한다고 보고 t-검정을 실행하면 된다. 

 

ttest DHu09ses006, by(m_work)

분석 결과에서 한글 부분이 깨져있긴 하지만, 빨간 네모만 보면 되므로 결과분석을 보도록 하자. 구체적으로 유의수준 .05에서 영가설(두 모집단 간에 월 평균 가구소득 평균에 차이가 없다)을 기각할 수 있으므로, 미취업모와 취업모 간 월 평균 가구소득 평균에 차이가 있다고 볼 수 있다. 사실 이는 당연한 결과인데 당연히 외벌이보다는 맞벌이 가정의 가구소득이 높을 가능성이 크다. 나머지 연속변수인 어머니의 연령과 자녀 월령도 이와 같은 과정을 진행하면 된다.

반응형