통계공부/Stata

논문 따라 패널 데이터 분석하기: 서미정(2011)(8)

대학원생A씨 2021. 4. 1. 09:20
반응형

이전 포스팅에 이어 한국아동패널의 1차년도 자료를 활용한 서미정(2011)의 논문을 따라 통계 분석을 진행해보았으며, 참고문헌은 아래와 같다.

 

서미정(2011). 부모의 심리사회적 특성이 후속 출산계획에 미치는 영향: 유자녀 가구를 중심으로. 육아정책연구, 5(1), 127-148.

 


 

변인들 간 상관관계 분석: 더미 변수로 변환하기

서미정(2011)은 유자녀 가구를 대상으로 후속 출산계획과 관련된 부모의 심리사회적 특성을 규명하기 위해 먼저 연구에 사용된 변인들간 상관관계를 파악하고 로지스틱 회귀분석을 실시하였다. 일반적으로 회귀분석을 진행한 논문에서는 변인들간 상관관계를 표로 나타낸다. 또한 회귀분석 뿐만 아니라 회귀분석을 기반으로 한 여러 통계분석 방법, 예를 들면 구조방정식을 활용한 논문에서도 변인들간 상관관계는 표를 작성하는 것이 권장된다. 어쨌든 변인간 상관관계를 알아보기 위해 해 Pearson's 적률상관계수를 산출할 것이며, 논문에서 후속 출산계획(낳겠다: 1, 낳지 않겠다: 0)과 모 취업(취업: 1, 학업과 미취업: 0)은 더미변수로 변환하였기에 이 과정을 따르고자 한다.

 

recode EMt08brp001 (1=1) (2=0) (3=.) (4=.), gen(V1)
recode DMt08jcg003 (1=1) (2=0) (4=0), gen(V7)
label variable V1 "후속출산계획(더미)"
label variable V7 "모취업(더미)"

☞ recode에 관한 설명 포스팅

☞ label에 관한 설명 포스팅

 

먼저 recode라는 명령어를 통해 논문에서와 같이 후속 출산계획 변수(EMt08brp001)와 모 취업 변수(DMt08jcg003)를 더미화하여 각각 V1과 V7이라는 변수로 저장하였다. 그리고 이렇게 저장한 변수에 대한 설명을 붙여주기 위해 label이라는 명령어를 사용하여 각각의 변수가 어떠한 변수인지 알려주는 라벨링 작업을 해주었다.

 

보통 더미 변수는 변수 이름에 해당하는 케이스의 변숫값을 1로 설정해주는 것이 좋다. 예를 들어, 성별을 더미 변수로 저장하고 싶은 경우가 있다고 해보자. 성별은 여자 혹은 남자 두 가지 케이스로 나눌 수 있기 때문에(물론 요즘에는 제 3의 성도 있지만 예시를 위해 여기서는 생략하도록 하겠다) 더미 변수명을 여자로 지칭한다면 여자에 해당하는 경우에는 1의 값을, 남자인 경우에는 0의 값을 부여하면 된다. 반대로 더미 변수명을 남자로 정했다면 여자는 0, 남자는 1로 코딩해주면 된다. 만약 더미 변수의 이름을 성별로 지칭한다면 분석 작업에서 1의 값이 여자인지 남자인지 헷갈릴 수 있기 때문에, 더미 변수를 만들 때에는 변숫값 1에 해당하는 내용을 변수명으로 지정해주는 것이 좋다.

 

더미 변수로 변환하는 작업이 끝났다면 이제 연속변수들에서 결측치가 없는지 살펴볼 것이다. 한국아동패널 1차년도 데이터를 살펴보면 무응답을 99999999로 코딩하였는데, 이를 수정하지 않고 분석을 진행한다면 말도 안 되는 분석 결과가 나올 것이다. 따라서 다음 포스팅에서는 상관관계를 분석하기 전, 분석에 사용될 연속변수들에 대한 기초작업을 소개할 것이다.

반응형