통계공부/Stata

논문 따라 패널 데이터 분석하기 - 연구참여자 선정하기: 신나리, 안재진(2014)(3)

대학원생A씨 2021. 6. 6. 09:05
728x90
반응형

지난 포스팅에 이어 신나리, 안재진(2014)의 연구를 따라 한국아동패널의 2~4차년도 자료를 분석할 것이다. 이전 포스팅에서 신나리, 안재진(2014)의 연구에서와 동일한 연구참여자를 선정하였다면, 이번 포스팅에서는 최종연구참여자의 인구사회학적 변수들을 살펴볼 것이다.

☞ 한국아동패널에 관한 설명

 


해당 연구의 최종 연구참여자는 한국아동패널 2~4차년도 조사에 모두 참여한 가구 중 어머니가 3년 내내 취업을 유지한 집단(392가구)과 계속해서 미취업상태로 남아있는 가구(871가구)다. 이를 위해 이전 포스팅에서 m_work라는 변수를 만들었는데, m_work 변수의 빈도분포를 보면 아래 사진과 같다.

위 결과를 보면 연구참여자 선정이 제대로 이루어진 것으로 보이는데, 여기서 함정이 있다. 바로 tab 명령어에서는 default로 결측치가 보이지 않는다는 점이다. 예를 들어, 어머니가 3년 중 1년만 취업을 하였거나 취업유무에 대해 응답하지 않는 경우가 있을 수 있는데 이러한 케이스들은 m_work 변숫값이 결측치로 저장되어 있다. 따라서 tab의 옵션 중 하나인 missing을 추가하여 결측치가 없는지 확인할 필요가 있다.

☞ tab 명령어에 관한 설명

tab의 옵션으로 missing(축약해서 m)을 추가하여 m_work의 빈도분포를 살펴보았다.

tab의 옵션으로 missing을 추가하였더니 결측치가 366 케이스가 있음을 확인할 수 있다. 이들은 해당 연구의 관심대상자가 아니기 때문에 최종 표본에서 이들을 제외시켜야 하므로 명령어 drop을 사용한다. 구체적으로 drop에 if 조건문을 사용하여 m_work라는 변수 중 결측치(.)로 코딩되어 있는 경우를 제외시킨다.

 

drop if m_work==.

이제 최종 연구참여자의 인구사회학적 특성을 살펴보자. 신나리, 안재진(2014)는 연구참여자의 인구사회학적 특성을 취업모 집단과 미취업모 집단을 구분하여 살펴보았으며, 연구에서 살펴본 인구사회학적 특성에는 어머니의 연령, 아동 월령, 아동 성별, 어머니의 결혼지위, 어머니의 최종학력, 자녀수, 월 가구소득이 포함되어 있다.

 

먼저 인구사회학적 특성으로 살펴본 변수들 중 결측치가 없는지 살펴볼 필요가 있다. 연속변수인 어머니의 연령(DMt09dmg006), 아동 월령(DCh09dmg006), 월 가구소득(DHu09ses006)은 간단히 sum 명령어를 이용해 변수의 평균과 표준편차, 최솟값과 최댓값을 살펴보자.

☞ sum 명령어에 관한 설명

sum DMt09dmg006 DCh09dmg006 DHu09ses006

 

위 결과에서 알 수 있듯이 월가구소득(DHu09ses006)의 최댓값이 잘못 입력되어 평균과 표준편차가 말이 되지 않게 나와있음을 알 수 있다. 이전 포스팅에서 여러 번 설명했듯이, 한국아동패널 데이터에서 무응답을 ‘99999999’로 코딩한 경우가 있는데 월가구소득(DHu09ses006) 변수도 이 경우에 해당한다. 따라서 recode 명령어를 이용하여 99999999로 코딩된 케이스를 결측치(=.)로 리코딩한다.

☞ recode 명령어에 관한 설명

recode DHu09ses006 (99999999=.)

 

다음으로 명목변수아동 성별(DCh09dmg001), 어머니의 결혼지위(DMt09dmg003), 어머니의 최종학력(DMt09dmg014), 자녀수(DCh09dmg002)를 살펴보자. 이 4가지 변수 중 신나리, 안재진(2014)은 어머니의 결혼지위와 최종학력, 자녀수를 리코딩하였다. 구체적으로 어머니의 결혼지위는 '유배우-초혼'과 '유배우-재혼'을 '유배우'로 묶었으며, 최종학력은 7가지 응답범주를 4가지로 줄였으며, 자녀수는 '넷째'와 '다섯째 이상'을 '넷째 이상'으로 합쳤다. 이와 같이 응답범주를 수정하기 위해서는 앞에서와 같이 recode 명령어를 사용한다. 

 

recode DMt09dmg003 (1=1) (2=2) (3=2) (6=6) (7=7), gen(mstatus)
recode DMt09dmg014 (1=1) (3=1) (4=1) (5=2) (6=3) (7=4) (8=4) (99999999=.), gen(m_edu)
recode DCh09dmg002 (1=1) (2=2) (3=3) (4=4) (5=4), gen(n_kids)
728x90
반응형