통계공부/Stata

논문 따라 패널 데이터 분석하기: 서미정(2011)(6)

대학원생A씨 2021. 3. 27. 08:45
반응형

이전 포스팅에 이어 한국아동패널의 1차년도 자료를 활용한 서미정(2011)의 논문을 따라 통계 분석을 진행해보았으며, 참고문헌은 아래와 같다.

 

서미정(2011). 부모의 심리사회적 특성이 후속 출산계획에 미치는 영향: 유자녀 가구를 중심으로. 육아정책연구, 5(1), 127-148.

서미정(2011)은 부모의 심리사회적 특성 변인이 후속 출산계획에 미치는 영향력을 검증하기에 앞서 통제변인인 자녀수, 가구소득, 부모학력, 어머니의 연령과 취업 여부에 따라 후속 출산계획에 차이가 있는지를 살펴보았다. 이 중 유의미한 차이를 보인 통제변수가 자녀수와 어머니의 연령으로 이에 대한 교차분석을 따라 실시해보도록 하겠다.

 

자녀수 및 모 연령에 따른 후속 출산계획(교차분석)

출처: 서미정(2011)

먼저 논문에서의 표를 가져왔다. 후속 출산계획 응답빈도를 보면 낳겠다는 27.8%, 낳지 않겠다는 50.4%, 잘 모르겠다는 21.7%임을 알 수 있다. 한국아동패널 1차년도 데이터에서 후속 출산계획에 해당하는 변수는 Emt08brp001로 응답분포표는 아래 사진과 같다.

위의 <표 2>의 결과와 비교해보면 '기타'라는 응답범주가 결측치로 처리되었음을 알 수 있다. 따라서 논문과 같이 Emt08brp001에 기타로 코딩된 값을 결측치로 처리해주고, 새로운 변수로 저장해준다. 이에 대한 코드는 다음과 같이 작성할 수 있다.

 

recode EMt08brp001 (1=1) (2=2) (3=3) (4=.), gen(DV)

☞ recode에 관한 설명 포스팅

 

그런데 다시 <표 2>를 살펴보면 후속 출산 계획뿐만 아니라 자녀수와 모 연령의 응답범주도 기존 데이터와 일치하지 않는다는 사실을 알 수 있다. 기존 데이터에서 자녀수는 1명, 2명, 3명, 네명, 다섯명 이상, 무응답으로 분류되어 있으며, 어머니 연령은 연속변수로 응답하게 되어있다. 따라서 논문과 같이 분석을 진행해주기 위해서는 자녀수와 모 연령의 응답범주도 수정을 해주어야 한다. 

 

응답 범주가 다름을 사진을 통해 알 수 있다. 참고로 자녀 수가 아동 출생순위로 대체된 이유에 대해서는 이전 포스팅에서 언급하였다.

 

recode n_child (1=1) (2=2) (3=3) (4=3) (5=3), gen(n_child2)
recode M_age (1=1) (2=1) (3=2) (4=3) (5=3), gen(M_age2)

 

이전 포스팅에서 이미 모 연령의 응답 범주를 19~24세, 25~29세, 30~34세, 35~39세, 40~46세로 수정하여 M_age라는 변수로 저장을 해두었다. 이를 다시 19~29세, 30~34세, 35세 이상으로 수정해서 M_age2라는 변수로 생성하였다.

 

 

 

이제 드디어 교차분석을 실시해보자.

 

tabchi n_child2 DV
tabchi M_age2 DV

자녀수와 어머니의 연령에 따른 후속 출산계획 카이제곱 분석 결과 사진

☞ tabchi에 관한 설명 포스팅

 

논문에서의 <표 2>와 비교해보면 약간의 숫자 차이가 있긴 하지만 거의 동일한 결과가 나온 것을 확인할 수 있다. 아마 숫자 차이가 난 이유는 논문의 출판연도와 현재 포스팅이 작성된 기간이 많이 차이가 나므로, 그 사이에 패널데이터가 일부 수정되었을 가능성도 있다. 또한 분석결과에서 수치 차이는 사용한 통계 프로그램이 달라서일 수도 있다.

반응형