통계공부/Stata

논문 따라 패널 데이터 분석하기 - 연구참여자의 일반적 특성: 신나리, 안재진(2014)(4)

대학원생A씨 2021. 6. 11. 09:20
반응형

논문 따라 패널 데이터 분석하기 포스팅 시리즈는 국내 패널 데이터를 활용한 논문을 따라 통계분석을 따라해보는 과정을 담았다. 구체적으로 통계 분석 프로그램에는 Stata를 사용했으며, 현재 작성중인 신나리, 안재진(2014)의 연구는 자기회귀 교차지연 모형(autoregressive cross-lagge modeling: ARCL)과 다집단 분석을 활용하였기에 Mplus도 추가적으로 이용할 예정이다. 해당 포스팅을 작성하기 위해 참고한 문헌 출처는 아래와 같다.

 

신나리, 안재진(2014). 어머니의 취업여부에 따른 양육스트레스와 자기효능감 간의 인과적 종단관계 분석. 아동학회지, 35(5), 135-154.

 


2021.06.06 - [통계공부/Stata] - 논문 따라 패널 데이터 분석하기 - 연구참여자 선정하기: 신나리, 안재진(2014)(3)

 

논문 따라 패널 데이터 분석하기 - 연구참여자 선정하기: 신나리, 안재진(2014)(3)

지난 포스팅에 이어 신나리, 안재진(2014)의 연구를 따라 한국아동패널의 2~4차년도 자료를 분석할 것이다. 이전 포스팅에서 신나리, 안재진(2014)의 연구에서와 동일한 연구참여자를 선정하였다

graduationplease.tistory.com

위의 포스팅까지 최종 연구대상을 추린 후 3년간 취업을 유지한 취업모 집단과 3년간 취업을 하지 않은 미취업모 집단을 구분해두었다. 또한 연구에서 다룰 변수들(어머니 연령, 자녀의 성별, 어머니 최종학력, 양육스트레스, 자기효능감 등)에 대해 data cleaning의 과정을 거쳤다. 그렇다면 이제 연구대상자의 일반적 특성을 알아보도록 하자.

 

일반적으로 연구방법 세션에 연구대상에 대한 사회인구학적 특성을 기술하는 부분이 있다(이전 포스팅 참고). 신나리, 안재진(2014) 역시 연구방법에서 연구대상자의 인구학적 특성을 Table 1로 제시하였다. 구체적으로 미취업모 집단과 취업모 집단을 구분하여 어머니의 연령, 자녀 월령, 자녀 성별, 어머니의 결혼지위, 어머니의 최종학력, 자녀 수, 월 가구소득을 제시하였다. 더불어 해당 연구에서 미취업모와 취업모 집단의 특성을 구분하여 살펴보는데 초점이 맞춰져 있으므로, 인구학적 특성에 있어 집단 간 차이가 나는지 살펴보기 위해 t 혹은 카이제곱 검정을 실시하였다.

출처: 신나리, 안재진(2014)

 

여기서 t 혹은 카이제곱 검정까지 다루면 포스팅이 과도하게 길어질테니, 이는 다음 포스팅에서 다루고 먼저 취업모/미취업모의 인구학적 특성을 살펴보도록 하자. 어머니의 연령, 아동 월령, 월 가구소득은 연속변수인 반면 나머지 변수들은 모두 명목변수(혹은 서열변수)에 해당한다. 연속변수는 평균과 표준편차를 살펴볼 것이며, 명목변수는 빈도분포를 파악해야 한다.

 

먼저 연속변수부터 살펴보자. 취업모와 미취업모 개별 연속변수의 통계치를 보기 위해 sum을 이용할 수도 있고, tab을 사용할 수도 있다. 예를 들어, sum을 활용한다면 그룹 구분을 위해 만들었던 변수 'm_work'를 활용하여 다음과 같은 명령어를 입력한다.

 

sum DMt09dmg006 DCh09dmg006 DHu09ses006 if m_work==1

☞ sum 명령어에 관한 설명

변수설명: DMt09dmg006 - 모 연령, DCh09dmg006 - 아동 월령, DHu09ses006 - 월 가구소득

이는 m_work 변숫값이 1인 집단의 세 가지 변수(DMt09dmg006 DCh09dmg006 DHu09ses006)의 통계치를 보여달라는 의미이다. 즉, 전체 표본 중 취업모 집단만을 선택하여 어머니의 연령과 아동 월령, 월 가구소득의 평균/표준편차/최솟값/최댓값을 보여달라는 뜻이다.  취업모뿐만 아니라 미취업모의 변수 특성도 살펴봐야 하니, 이 때는 뒤에 if m_work==1 부분을 if m_work==0으로만 수정하면 된다. 그 결과는 아래 사진과 같다.

이번에는 tab을 활용해보자. tab을 이용하여 두 집단의 연속변수의 특성을 살펴보고 싶다면 아래와 같이 코드를 입력하면 된다.

 

tab m_work, sum(DMt09dmg006)
tab m_work, sum(DCh09dmg006)
tab m_work, sum(DHu09ses006)

☞ tab 명령어에 관한 설명

 

아쉽게도 sum 뒤 괄호 안에 여러 개의 변수를 입력할 수 없어 내가 살펴볼 변수를 각각 입력하여 명령어를 실행해주어야 한다. 위의 명령어를 실행하면 아래 사진과 같은 분석결과를 받을 수 있다.

 

이제 취업모/미취업모에 따른 명목변수(혹은 서열변수)의 특성을 보자. 이 때 사용할 명령어는 tab인데 신나리, 안재진(2014)이 제시한 Table 1과 같이 N과 %를 모두 나타낼 것이다. 이를 위해서는 명령어 tab과 이의 옵션인 row 또는 col을 사용할 것이다. Row는 각 셀의 행 내에서 상대빈도를 보고하는 옵션이며, col은 각 셀의 열 내에서 상대빈도를 알려주는 옵션이다. 예시로 어머니의 결혼지위 변수를 살펴보자.  

 

tab mstatus m_work

tab만 실행하면 위의 사진에서와 같이 N만이 표시된다. 따라서 %를 알기 위해서는 col 또는 row 옵션을 사용해야 한다. 여기서 나는 미취업모 집단 내에서 결혼지위별 퍼센트와 취업모 집단 내에서 결혼지위별 퍼센트, 즉 각 셀의 열 내에서 상대빈도를 알고 싶으므로 col 옵션을 붙인다.

 

tab mstatus m_work, col

반응형