통계공부/Stata

논문 따라 패널 데이터 분석하기 - 종단데이터 병합하기: 신나리, 안재진(2014)(1)

대학원생A씨 2021. 4. 26. 09:10
반응형

'논문 따라 패널 데이터 분석하기' 두번째 시리즈의 포스팅이다. 이번 포스팅은 한국아동패널의 2~4차년도 자료를 활용한 신나리, 안재진(2014)의 연구를 따라 데이터 분석을 해보는 과정을 담았다. 해당 논문은 종단 자료를 사용하였으며, 영아기 자녀를 둔 어머니의 자기효능감 및 양육스트레스의 종단적 인과관계를 알아보기 위해 자기회귀 교차지연 모형(autogressive cross-lagged modeling: ARCL)다집단 분석을 실시하였다. 포스팅을 작성하기 위한 참고문헌은 아래와 같다.

 

신나리, 안재진(2014). 어머니의 취업여부에 따른 양육스트레스와 자기효능감 간의 인과적 종단관계 분석. 아동학회지, 35(5), 135-154.

 

☞ 원본 논문과 관련된 포스팅

2021.04.21 - [논문 리뷰] - 신나리, 안재진(2014). 어머니의 취업여부에 따른 양육스트레스와 자기효능감 간의 인과적 종단관계 분석.

 

신나리, 안재진(2014). 어머니의 취업여부에 따른 양육스트레스와 자기효능감 간의 인과적 종단관

이번 포스팅에서는 한국아동패널 자료를 이용하여 영아기 자녀를 둔 어머니의 자기효능감과 양스트레스의 인과적 종단관계를 분석한 신나리, 안재진(2014)의 연구를 살펴보고자 한다. 본 포스팅

graduationplease.tistory.com

2020.03.30 - [통계 공부/기타] - 국내 패널조사(4): 한국아동패널(PSKC), 한국아동청소년패널조사(KCYPS)

 

국내 패널조사(4): 한국아동패널(PSKC), 한국아동청소년패널조사(KCYPS)

지금까지 대학원생이 유용하게 사용할 수 있는 국내 패널조사 데이터에 대해 알아보고 있다. 지금까지 소개한 패널조사에는 청년패널조사(YP), 한국교육종단연구(KELS), 여성가족패널조사(KLoWF),

graduationplease.tistory.com


신나리, 안재진(2014) 한국아동패널 2~4차년도 조사에 모두 참여한 가구 중 어머니가 3년 내내 취업을 유지한 집단(392가구)과 계속해서 미취업상태로 남아있는 가구(871가구)를 선정하여 최종적으로 1,263가구가 분석에 포함되었다. 논문을 따라 분석을 진행해야 하므로 신나리, 안재진(2014)의 연구와 동일한 데이터셋을 만들기 위해서는 아래와 같은 과정을 따라야 한다.

Step1. 한국아동패널 2차년도 데이터를 오픈하여 필요한 변수만을 선택한다.
Step2. 한국아동패널 3차년도 데이터셋을 병합한다. 이 때, 분석에서 사용할 어머니의 취업상태, 양육스트레스, 자기효능감 변수만을 가져온다.
Step3. 한국아동패널 4차년도 데이터셋도 3차년도 방식과 동일하게 진행한다.

 

Step1. 2차년도 데이터에서 변수 고르기

2차년도 데이터에서 필요한 변수는 어머니의 양육스트레스(EMt09prs001- EMt09prs010), 母 자기효능감(EMt09sff001- EMt09sff004), 아동월령(DCh09dmg002), 아동 성별(DCh09dmg001), 아동 출생순위(DMt09dmg003), 어머니 결혼상태(DMt09jcg003), 어머니 취업/학업상태(DCh09dmg006), 월 평균 가구 소득(DHu09ses006 DHu09ses007), 어머니 연령(DMt09dmg006), 어머니 최종학력(DMt09dmg014)이다. 필요한 변수만을 선택하기 위해 사용할 명령어는 keep이다.

☞ Stata 명령어 keep 설명 포스팅

 

keep N_ID EMt09prs001- EMt09prs010 EMt09sff001- EMt09sff004 DCh09dmg002 DCh09dmg001 DMt09dmg003 DMt09jcg003 DCh09dmg006 DHu09ses006 DHu09ses007 DMt09dmg006 DMt09dmg014

 

참고로 N_ID라는 변수는 3, 4차년도 데이터를 병합할 때 사용할 기준 변수이기 때문에 반드시 데이터셋에 포함해주어야 한다.

 

Step2. 3차년도에서 필요한 변수만 가져와 병합하기

2차년도 데이터와 3차년도 데이터를 병합하기 위해 Stata에서 사용할 명령어는 merge다. Merge의 keepusing이라는 옵션을 사용하면 3차년도에서 연구자가 사용할 변수만을 선택적으로 가져올 수 있다. 참고로 nogenerate 옵션은 Stata 프로그램에서 데이터셋을 병합하였을 때 자동적으로 생성되는 _merge라는 변수를 만들지 않는 기능이다. 보다 자세한 설명은 이전 포스팅을 참고하길 바란다.

☞ Stata 명령어 merge 설명 포스팅

merge 1:1 N_ID using "PSKC_w3_2010.dta", nogenerate keepusing(EMt10prs001- EMt10prs011 EMt10sff001- EMt10sff004 DMt10jcg003)

2차년도와 3차년도 데이터가 잘 match되었음을 확인할 수 있다.

 

Step3. 4차년도 데이터도 동일하게 병합하기

merge 1:1 N_ID using "PSKC_w4_2011.dta", nogenerate keepusing(EMt11prs001- EMt11prs011 EMt11sff001- EMt11sff004 DMt11jcg003)

위의 syntax를 설명하자면 N_ID라는 변수를 기준으로 2+3차년도 데이터셋과 4차년도 데이터셋(PSKC_w4_2011.dta라는 파일로 저장되어 있음)을 병합하였다. 이 때, nogenerate 옵션을 통해 데이터 병합시 자동으로 생성되는 _merge 변수를 만들지 않고, keepusing 옵션을 통해 4차년도에 일부 변수(EMt11prs001- EMt11prs011, EMt11sff001- EMt11sff004, DMt11jcg003)만을 선택적으로 가져왔다.

반응형