이번 포스팅에서는 Stata의 기본 명령어 중 tab과 sum에 대해 설명하고자 한다. 참고로, 저번 포스팅들과 마찬가지로 예시를 드는 것이 좋을 것 같아 stata 프로그램의 lifeexp 데이터를 이용하여 설명을 하고자 한다.
1. tab
tab + 변수명 : 해당 변수의 빈도를 제공하는 명령어
tab + 변수명, missing : 결측값을 포함하여 해당 변수의 빈도를 제공하는 명령어
tab + 변수명, nolabel : 변수의 label 값이 아닌 숫자로 해당 변수의 빈도를 제공하는 명령어
tab + 변수명1, sum (변수명2) : 변수1의 분류에 따라 변수2의 평균, 표준편차를 제공하는 명령어
tab + 변수명1 + 변수명2 : Two-way 테이블을 제공하는 명령어
tab은 빈도분포표를 제공하는 명렁어로, 다양한 option을 활용하여 폭넓게 사용할 수 있는 명령어 중 하나이다. 아무런 option 없이 기본적으로 tab + 명령어를 입력하면 다음과 같은 결과를 얻을 수 있다.
사진에서와 같이 lifeexp의 데이터 중 region이라는 변수의 빈도분포를 결과창에 제시해준다.
여기서 옵션으로 뒤에 ,nol 혹은 ,nolabel을 붙여주면 변수의 label 값이 아닌 숫자로 결과를 보여준다.
추가로 다른 옵션인 ,m 혹은 ,missing을 붙여주면 결측값까지 포함한 빈도분포표를 제시해준다. 다만 region이라는 변수에서는 결측값이 없어서 해당 옵션을 붙여도 동일한 결과를 얻게 된다.
하지만 만약 변수에 결측값이 있는 경우(lifeexp 데이터의 safewater 변수는 결측값이 있다)에는 결측값을 .으로 표시하여 다음 사진과 같은 결과를 얻을 수 있다.
마지막으로 소개할 옵션은 sum인데, tab과 sum을 같이 사용하면 여러모로 편하다. 해당 명령어는 tab 뒤에 오는 변수를 기준으로 한 그룹에 따라 sum 뒤에 오는 변수의 평균, 표준편차를 제시한다. 예를 들어, tab gender, sum(height)라고 친다면 성별에 따른 키의 평균, 표준편차값을 제공한다는 것이다.
tab에 대한 설명이 길었는데, tab은 잘 사용해야 하는 명령어 중 하나이니 help창을 활용하여 tab의 여러 기능을 확인하고 목적에 맞게 잘 사용하면 좋을 것이다.
2. sum
sum + 변수명 : 해당 변수의 관찰값, 평균, 표준편차, 최솟값, 최댓값 등 기초통계값을 제공하는 명령어
sum + 변수명, detail : 해당 변수의 부가적인 기초통계값을 제공하는 명령어
sum이라는 명령어는 변수의 기초통계값을 제공하는 명령어로, 뒤에 detail이라는 옵션을 붙이면 추가적으로 백분위수와 분산(variance), 왜도(skewness), 첨도(kurtosis)를 알 수 있다. sum 뒤에 변수명은 원하는 대로 붙일 수 있으며, 데이터의 모든 변수에 대한 기초통계값을 얻고 싶을 때는 그냥 sum만 쳐도 된다.
sum 뒤에 변수를 일일히 나열하기 귀찮은 경우 -를 사용하면 popgrowth와 safewater를 포함하여 그 사이에 있는 변수들의 기초통계값을 제공한다.
sum 변수는 기본적으로 데이터를 분석하기 전, 전체 데이터를 쭉 살펴보는 과정에서 기본적으로 실행해봐야 하는 명령어이다. sum을 통한 결과창만으로 결측값은 없는지(관측값 확인), 코딩이 잘못된 부분은 없는지(최솟값과 최댓값을 보거나 그 외 다른 통계값이 비정상적인 값은 아닌지 확인하기) 등을 대충은 파악할 수 있기 때문이다.
'통계공부 > Stata' 카테고리의 다른 글
[Stata] 기본 명령어(6): gen, egen (0) | 2020.03.27 |
---|---|
[Stata] 기본 명령어(5): encode, decode, label, rename (0) | 2020.03.23 |
[Stata] 기본 명령어(3): list, sort, clear, exit (0) | 2020.03.17 |
[Stata] 기본 명령어(2): ssc install, browse, describe (0) | 2020.03.15 |
[Stata] 기본 명령어(1): help, cd, set more off, sysuse (1) | 2020.03.13 |