통계공부/Stata

논문 따라 패널 데이터 분석하기: 서미정(2011)(7)

대학원생A씨 2021. 3. 29. 09:00
반응형

이전 포스팅에 이어 한국아동패널의 1차년도 자료를 활용한 서미정(2011)의 논문을 따라 통계 분석을 진행해보았으며, 참고문헌은 아래와 같다.

 

서미정(2011). 부모의 심리사회적 특성이 후속 출산계획에 미치는 영향: 유자녀 가구를 중심으로. 육아정책연구, 5(1), 127-148.

자녀수 및 모 연령에 따른 추가 출산하지 않는 이유(교차분석)

서미정(2011)은 후속 출산계획에 대해 ‘낳지 않겠다’고 응답한 조사대상자들의 추가 출산하지 않는 가장 큰 이유를 자녀수 및 모 연령에 따라 교차분석하였다. 후속 출산 미계획 사유에 대한 한국아동패널의 데이터 변수는 EMt08brp003이다. 먼저 해당 변수의 빈도분포를 보기 위해 tab 명령어를 실행한다.

 

tab EMt08brp003
tab EMt08brp003, nol

☞ tab에 관한 설명 포스팅

 

위의 사진에서와 같이 '무응답'의 케이스가 26건이 있어 이들을 결측치로 처리해주어야 한다. 왼쪽과 오른쪽 사진을 비교하면 알 수 있듯이, 현재 '무응답'의 경우 99999999의 값으로 코딩이 되어 있으므로 해당 값을 결측치에 해당하는 '.'로 변경해준다.

 

recode EMt08brp003 (99999999=.), gen(DV2)

☞ recode에 관한 설명 포스팅

 

어머니의 후속 출산 미계획 사유 변수(EMt08brp003) 중 무응답 값을 결측치로 저장하여 새로운 변수(DV2)에 저장하였다. 해당 변수에 대한 빈도분포를 살펴보면 아래 사진과 같다. 사진에서와 같이 기존 변수를 recode한 경우 stata 프로그램에서 자동으로 label에 어떠한 변수를 recode하였는지 표기가 된다(RECODE of EMt08brp003). 하지만 응답값에 대한 label이 변경이 되었기 때문에 1, 2, 3,... 7과 같이 숫자로만 표기가 될 뿐 각각의 값이 어떠한 의미를 가지는지는 알 수 없다. 사실 분석을 하면서 이런 개별 응답값에 대한 labeling 작업을 하는것이 번거롭기는 하지만, 해당 데이터를 여러 번 반복 작업을 해야 한다면 귀찮더라도 그 때 그 때 라벨링을 해주는 것이 좋다. 이전 포스팅에서 라벨링 작업을 설명한 적이 있으므로, 일단 여기서는 라벨링 작업을 스킵하고 교차분석 단계로 넘어가도록 하겠다.

 

tabchi n_child2 DV2
tabchi M_age2 DV2

☞ tabchi 옵션에 관한 설명 포스팅

왼쪽 사진은 자녀수에 따른 후속 출산 미계획 사유 교차분석 결과이며, 오른쪽 사진은 어머니 연령에 따른 후속 출산 미계획 사유 교차분석 결과다.

위의 사진을 통해 자녀수 및 모 연령에 따른 후속 출산 미계획 사유 교차분석 결과를 알 수 있다. 카이제곱 분석에서의 자유도와 유의도가 맨 밑에 나와있는 것을 확인할 수 있다. 카이제곱 검정에서의 영가설은 통계적 독립성을 영가설로 설정하기 때문에, 분석 결과 p<.000으로 나와 영가설을 기각할 수 있으므로 후속 출산 미계획 사유에 자녀수와 어머니의 연령이 영향을 미칠 수 있음을 알 수 있다.

☞ 분할표 분석에 관한 이론 포스팅

 

한 가지 유의할 점은 분석 과정에서 일부 셀의 기대도수가 5미만이기 때문에, 이럴 경우에는 응답 범주를 일부 통합하여 다시 분석을 하는 것이 나을 수 있다. 예를 들어, 후속 출산 미계획 사유에 자녀 양육 비용과 자녀 교육 비용과 같이 유사한 응답을 합칠 수도 있다. 

반응형