반응형

통계공부 91

Python과 jupyter notebook 설치하기

데이터를 분석하기 위해 다양한 통계/분석 프로그램을 쓸 수 있다. 사회과학 분야에서는 SAS, SPSS, Stata 등의 프로그램을 사용하는데 최근 추세는 Python과 R로 넘어가고 있다. 앞선 프로그램들과 달리 Python과 R는 공짜에 인터넷에 많은 프로그램 유저들이 자신의 코드뿐만 아니라 오류 상황에서 해결법을 공유하고 있어 장점이 많다. 더불어 python과 R은 데이터 시각화에 특화된 프로그램이라는 장점이 있다. 파이썬은 데이터 분석과 대화형 데이터 조사, 데이터 시각화에서 자주 쓰는 R, MATLAB, SAS, Stata 같은 오픈소스 혹은 상용 도메인 종속 언어나 도구와 비교해도 뒤지지 않는다. 또한 최근에는 파이썬 라이브러리 지원(주로 pandas)이 향상되어 데이터 처리 업무에 두각을 ..

통계공부/Python 2023.12.14

[Mplus] 잠재계층분석(LCA)/잠재프로파일분석(LPA) syntax 설명 (2)

지난 포스팅에서 Mplus 프로그램을 이용하여 잠재계층분석(Latent Class Analysis; LCA)과 잠재프로파일분석(Latent Profile Analysis; LPA)의 기본 syntax를 설명하였다. 그런데 댓글로 잠재계층분석 혹은 잠재프로파일분석에 관한 추가 질문이 많이 달려, 보충 설명을 하고자 이번 포스팅을 준비하였다. 이에 이번 포스팅에서는 LCA 혹은 LPA 분석에서 도출된 계층에 대한 기술통계분석(평균, 표준편차) 결과를 확인하는 방법과 잠재계층을 데이터로 저장하는 법에 대해 다룰 것이다. *설명을 위해 노언경, 정송, 홍세희 (2014)의 데이터 분석을 따라해보고자 한다. 해당 연구는 한국청소년정책연구원의 2011년 아동청소년 정신건강 증진 지원방안 연구 자료를 사용하였다. 원..

통계공부/Mplus 2022.12.18

로지스틱 회귀분석

심리학, 교육학, 사회복지학 등 많은 분야에서 이항형(dichotomous) 또는 다항형(polytomous) 종속변수를 사용한다. 예를 들면, 독립변수를 이용해서 우울증 여부를 판단한다든지, 합격 또는 불합격을 예측한다든지, 특정 정당지지 여부를 예측해야 하는 경우가 있다. 이 경우에는 종속변수가 연속변수가 아니고 비연속 변수 또는 범주형 변수이므로 일반적인 선형(linear) 회귀분석을 사용할 수 없게 된다. 종속변수가 이분변수일 경우에는 독립변수 값의 변화에 따라 종속변수 값이 자유롭게 변할 수 있는 것이 아니라 0또는 1로 나누어진다. 이 경우에 선형회귀분석을 적용하면 독립변수와 종속변수의 관계를 제대로 설명하지 못하게 된다. 이러한 문제점을 해결하기 위해 종속변수가 이분변수일 경우에는 선형함수 ..

[Stata] 그래프 작성: 파이 그래프(pie chart) +명령어 codebook 설명

Stata 프로그램으로 막대 그래프(bar chart)를 그리는 방법(☞ 포스팅 링크)에 이어 이번 포스팅에서는 파이 그래프(pie chart) 작성 방법에 대해 알아보고자 한다. 지난 포스팅과 마찬가지로 Stata 프로그램에 내재된 데이터셋을 이용할 것이며, 해당 데이터셋에 대한 설명을 위해 Stata의 기본 명령어 중 하나인 codebook에 대한 설명도 함께 하고자 한다. 먼저 stata 데이터셋 중 유권자에 대한 정보를 담은 'voter' 파일을 명령어 sysuse로 불러올 것이다. sysuse voter ☞ sysuse 명령어에 대한 설명 voter 데이터셋을 불러왔다면 먼저 데이터의 구조와 어떠한 변수들이 있는지 확인하기 위해 명령어 describe를 실행한다. describe를 통해 관찰값과..

통계공부/Stata 2021.08.05

[Stata] 그래프 작성: 막대 그래프(bar chart)

Stata 프로그램의 장점 중 하나는 그래프 편집으로, 논문에 바로 게재할 수 있는 퀄리티의 그래프를 바로 얻을 수 있다는 장점이 있다. 이에 이전 포스팅에서 Stata 프로그램에서의 그래프 작성에 관한 기초 내용을 다루었으며, 이번 포스팅에서는 stata 바 그래프 작성과 관련한 구체적인 명령어를 살펴볼 예정이다. Stata 그래프 작성의 기초가 궁금하신 분들은 이전 포스팅을 참고하길 바란다. ☞ 2021.07.28 - [통계공부/Stata] - [Stata] 그래프 작성의 기초 그래프 작성과 관련한 명령어를 알아보기 위해 stata 프로그램에 기본으로 내장된 데이터를 예시로 들어보자. Stata에는 다양한 데이터를 기본 데이터로 내재하고 있는데, 이 중 오늘은 ‘bpwide’라는 데이터셋을 이용할 것..

통계공부/Stata 2021.08.03

[Stata] 그래프 작성의 기초

Stata 메뉴의 새로운 포스팅 시리즈로 그래프 작성 절차를 다루어 보고자 한다. 통계 분석 프로그램에는 Stata 외에도 SAS, SPSS 등이 있는데 이들 프로그램과 비교하였을 때 Stata의 두드러진 장점 중 하나는 그래프이다. 위의 사진은 Stata 공식 홈페이지에서 가져온 사진으로, Stata 프로그램에서 출력된 그래프를 바로 논문에 게재하여도 문제 없을 만큼의 퀄리티를 보여준다. Stata에서 그래프를 작성하기 위해서는 기존 분석과 마찬가지로 인터페이스를 활용하는 방법도 있고, 명령어를 입력하는 방법도 있다. 또한 Stata 프로그램에는 그래픽 편집기가 있기 때문에, 명령어 혹은 인터페이스로 먼저 초벌 그래프를 만든 후 그래픽 편집기를 이용하여 그래프를 보완할 수 있다. 해당 포스팅 시리즈에서..

통계공부/Stata 2021.07.28

논문 따라 패널 데이터 분석하기 - Stata 파일 Mplus 파일로 변환: 신나리, 안재진(2014)(8)

현재 포스팅은 '논문 따라 패널 데이터 분석하기' 시리즈 2편으로 한국아동패널의 2~4차년도 자료를 활용한 신나리, 안재진(2014)의 연구를 따라 데이터 분석을 해보는 과정을 기술하였다. 해당 논문은 종단 자료를 사용하였으며, 영아기 자녀를 둔 어머니의 자기효능감 및 양육스트레스의 종단적 인과관계를 알아보기 위해 자기회귀 교차지연 모형(autogressive cross-lagged modeling: ARCL)과 다집단 분석을 실시하였다. 원본 논문의 출처는 아래와 같다. 신나리, 안재진(2014). 어머니의 취업여부에 따른 양육스트레스와 자기효능감 간의 인과적 종단관계 분석. 아동학회지, 35(5), 135-154. ☞ 원본 논문과 관련된 포스팅 2021.04.21 - [논문 리뷰] - 신나리, 안재진..

통계공부/Stata 2021.07.08

논문 따라 패널 데이터 분석하기 - 역코딩, 척도 평균, t-test: 신나리, 안재진(2014)(7)

지난 포스팅에 이어 이번 포스팅에서는 신나리, 안재진(2014) 연구의 주요 변수인 양육스트레스와 자기효능감의 기술통계치를 어머니의 취업 여부에 따라 나누어 살펴볼 것이다. 이를 위한 밑작업으로 지난 포스팅에서 항목 묶기를 진행하였는데, 이번 포스팅에서는 먼저 자기효능감을 역코딩하고 양육스트레스와 자기효능감 척도의 평균을 내어 그 통계치가 어머니의 취업 여부에 따라 통계적으로 유의한 차이가 있는지(즉, t-test를 실행) 분석해볼 것이다. 역코딩 신나리, 안재진(2014)에서 연구도구에 대한 설명을 보면 자기효능감 척도를 역코딩하여 점수가 높을수록 높은 자기효능감을 의미하도록 환산하였다. 실제 아동패널에서 사용한 자기효능감 척도(Mainieri, 2006) 문항내용을 살펴보면, '내가 가진 문제들 중 ..

통계공부/Stata 2021.07.05

논문 따라 패널 데이터 분석하기 - 항목묶기, 크론바하 알파 구하기: 신나리, 안재진(2014)(6)

논문 따라 패널 데이터 분석하기 포스팅 시리즈 중 현재 2014년 아동학회지에 실린 신나리, 안재진(2014)의 연구를 살펴보고 있다. 드디어 이번 포스팅부터 주요 결과분석에 들어갈 것이다. 구체적으로 이번 포스팅에서는 해당 연구의 주요 변인인 어머니의 양육스트레스 문항에 대해 항목묶기를 실시하고, 양육스트레스와 자기효능감 척도의 크론바하 알파값을 구해볼 것이다. 항목묶기(item parceling) 어머니의 양육스트레스와 자기효능감의 기술통계치를 다루기에 앞서 신나리, 안재진(2014)의 연구와 같이 항목묶기를 먼저 할 것이다. 왜냐하면 한 요인의 측정변수가 많은 경우 추정해야할 요인계수의 수가 표본 수에 의해 과도해져 실제 참인 연구모형을 기각할 확률이 커지기 때문이다. 이에 신나리, 안재진(2014..

통계공부/Stata 2021.07.02

논문 따라 패널 데이터 분석하기 - 연구참여자의 일반적 특성: 신나리, 안재진(2014)(5)

지난 포스팅에서 신나리, 안재진(2014) 연구에서 연구참여자의 일반적 특성에 대해 알아보았다. 구체적으로 해당 연구는 연구참여자의 일반적 특성으로 어머니의 연령, 자녀 월령, 자녀 성별, 어머니의 결혼지위, 어머니의 최종학력, 자녀 수, 월 가구소득을 기술하였으며, 이 때 미취업모 집단과 취업모 집단을 구분하여 통계치를 제시하였다. 또한 해당 연구는 미취업모와 취업모 집단의 특성을 구분하여 살펴보는데 초점이 맞춰져 있어, 인구학적 특성에 있어 집단 간 차이가 나는지 살펴보기 위해 t 혹은 카이제곱 검정을 실시하였다. 이번 포스팅에서는 이를 검증하는 과정을 다룰 것이다. 위에서 언급한 인구학적 특성 중 명목변수(혹은 서열변수)에 해당하는 것은 자녀 성별, 어머니의 결혼지위, 어머니의 최종학력, 그리고 자..

통계공부/Stata 2021.07.01
반응형