통계공부/Stata

논문 따라 패널 데이터 분석하기 - 연구참여자 선정하기: 신나리, 안재진(2014)(2)

대학원생A씨 2021. 4. 27. 09:05
반응형

지난 포스팅에 이어 한국아동패널의 2~4차년도 자료를 활용한 신나리, 안재진(2014)의 연구를 따라 데이터분석을 진행해볼 것이다. 이전 포스팅에서 한국아동패널의 2~4차년도 자료를 병합하기 위한 merge의 기능을 중점적으로 알아보았다면, 이번 포스팅에서는 병합된 자료에서 최종 연구참여자를 추리는 과정을 진행할 것이다. 이와 같이 연구참여자를 선정하는 과정은 keep이나 drop과 같은 기본 명령어만 써도 충분하지만, 연구 조건에 적합한 연구참여자를 골라내기 위해 데이터를 보다 면밀히 살펴볼 필요가 있다. 예를 들어, 한국아동패널에서는 어머니의 취업/학업 상태에 대한 변수가 있는데 나의 연구에서는 학업 중인 어머니를 취업모에 포함시킬 것인지 생각해보고 그 결정을 분석에 반영해야 한다. 보다 자세한 내용은 아래 내용을 보면서 알아보도록 하자.

 


신나리, 안재진(2014) 한국아동패널 2~4차년도 조사에 모두 참여한 가구 중 어머니가 3년 내내 취업을 유지한 집단(392가구)과 계속해서 미취업상태로 남아있는 가구(871가구)를 최종 연구참여자(총 1,263가구)로 포함시켰다. 그렇다면 연구자는 먼저 한국아동패널 2-4차년도 데이터셋에서 어머니의 취업/학업 상태에 관한 변수(DMt09jcg003, DMt10jcg003, DMt11jcg003)의 빈도분포를 살펴보아야 한다. 빈도분포에 관한 명령어는 tab을 사용하면 된다.

☞ tab 명령어에 관한 설명

 

tab1 DMt09jcg003 DMt10jcg003 DMt11jcg003

 

참고로 tab1은 tab과 달리 뒤에 나열된 변수의 빈도분포를 개별적으로 보여준다. 따라서 위의 명령어를 입력하였을 경우 아래 사진과 같이 분석결과가 제시된다. 

어머니의 취업/학업 상태에 관한 빈도분포표

그런데 3차년도 어머니의 취업/학업 상태(DMt10jcg003)에 관한 빈도분포를 보면 무응답의 case가 보고되고 있다. 한국아동패널 3차년도 데이터에서 무응답은 99999999의 값으로 코딩되어 있기 때문에 이를 결측치에 해당하는 '.'로 값을 변경해준다.

recode DMt10jcg003 (99999999=.)

☞ recode 명령어에 관한 설명

 

또한 어머니의 취업/학업 상태에 대해 응답하지 않는 경우는 분석에 포함할 필요가 없으므로 이들을 데이터셋에서 제외시켜준다. 이를 위해 사용할 명령어는 drop이다.

☞ recode 명령어에 관한 설명

drop if (DMt09jcg003==. | DMt10jcg003==. | DMt11jcg003==. )

참고로 괄호() 안에 있는 '|'는 영어의 or에 해당한다. 즉 2차년도 어머니 취업/학업 문항에 무응답인 경우 또는 3차년도 어머니 취업/학업 문항에 무응답인 경우 또는 4차년도 어머니 취업/학업 문항에 무응답인 경우를 탈락시키라는 의미이다.

 

결측치를 제외하였으니 이제 최종 표본을 정해보도록 하자. 위에서 언급한 조건의 표본을 선정하기 위한 방법은 다양할 수 있는데, 필자는 먼저 표본 선정을 위해 새로운 변수(m_work)를 생성한 뒤, 3년 내내 취업을 유지한 경우를 1로, 3년 내내 미취업상태로 남아있는 경우를 0으로 코딩해보고자 한다. 이는 최종 표본도 설정할 겸 이후 다집단분석을 진행하기 위해 집단을 구분할 변수를 미리 생성하기 위함이다. 

 

gen m_work=.
replace m_work=1 if (DMt09jcg003==1 & DMt10jcg003==1 & DMt11jcg003==1 )
replace m_work=0 if (DMt09jcg003!=1 & DMt10jcg003!=1 & DMt11jcg003!=1 )

☞ gen 명령어에 관한 설명

☞ replace 명령어에 관한 설명

 

syntax를 보다 자세히 설명하자면 먼저 m_work라는 변수에 대해 모든 응답값이 결측치(.)가 될 수 있도록 설정하였다. 그 다음 replace라는 명령어를 이용하여 2-4차년도 어머니 취업/학업 문항에서 모두 취업 중이라고 응답한 경우를 1로 코딩하였다. 반면 2-4차년도 어머니 취업/학업 문항에서 모두 취업 중 외의 응답을 선택한 경우를 0으로 코딩하였다. 이는 즉, 학업 중인 어머니도 미취업 상태로 보았으며 2-4차년도 중 한 번 이상이라도 취업 중이라고 응답한 경우는 제외가 됨을 의미한다.

 

마지막으로 내가 원하는 연구참여자를 제대로 설정하였는지 확인하기 위해 m_work라는 새로 생선된 변수의 빈도분포를 살펴보자.

tab m_work

 

신나리, 안재진(2014)의 최종 연구참여자와 동일한 분포를 보인다.

 

마지막으로 새로 생선된 m_work 변수의 labeling을 달아주자. 

label define m_work 0"미취업" 1"취업"
label values m_work "m_work"

☞ labeling 작업에 관한 설명

 

Labeling 후에 tab m_work를 실행하면 이전과 달리 변숫값이 무엇을 의미하는지 파악하기 쉬워진다.

 

반응형