통계공부/Stata

[Stata] 기본 명령어(4): tab, sum

대학원생A씨 2020. 3. 21. 10:20
반응형

이번 포스팅에서는 Stata의 기본 명령어 중 tab sum에 대해 설명하고자 한다. 참고로, 저번 포스팅들과 마찬가지로 예시를 드는 것이 좋을 것 같아 stata 프로그램의 lifeexp 데이터를 이용하여 설명을 하고자 한다.

  

1. tab

tab + 변수명 : 해당 변수의 빈도를 제공하는 명령어
tab +
변수명missing : 결측값을 포함하여 해당 변수의 빈도를 제공하는 명령어
tab +
변수명nolabel : 변수의 label 값이 아닌 숫자로 해당 변수의 빈도를 제공하는 명령어
tab +
변수명1, sum (변수명2) : 변수1의 분류에 따라 변수2의 평균, 표준편차를 제공하는 명령어
tab +
변수명1 + 변수명2 : Two-way 테이블을 제공하는 명령어

tab은 빈도분포표를 제공하는 명렁어, 다양한 option을 활용하여 폭넓게 사용할 수 있는 명령어 중 하나이다아무런 option 없이 기본적으로 tab + 명령어를 입력하면 다음과 같은 결과를 얻을 수 있다.

사진에서와 같이 lifeexp의 데이터 중 region이라는 변수의 빈도분포를 결과창에 제시해준다.

여기서 옵션으로 뒤에 ,nol 혹은 ,nolabel을 붙여주면 변수의 label 값이 아닌 숫자로 결과를 보여준다.

Eur & C.Asia → 1, N.A. → 2, S.A. → 3으로 코딩되어 있음을 알 수 있다.

추가로 다른 옵션인 ,m 혹은 ,missing을 붙여주면 결측값까지 포함한 빈도분포표를 제시해준다. 다만 region이라는 변수에서는 결측값이 없어서 해당 옵션을 붙여도 동일한 결과를 얻게 된다

하지만 만약 변수에 결측값이 있는 경우(lifeexp 데이터의 safewater 변수는 결측값이 있다)에는 결측값을 .으로 표시하여 다음 사진과 같은 결과를 얻을 수 있다.

결측값은  . 으로 표시된다

마지막으로 소개할 옵션은 sum인데tab sum을 같이 사용하면 여러모로 편하다. 해당 명령어는 tab 뒤에 오는 변수를 기준으로 한 그룹에 따라 sum 뒤에 오는 변수의 평균, 표준편차를 제시한다. 예를 들어, tab gender, sum(height)라고 친다면 성별에 따른 키의 평균, 표준편차값을 제공한다는 것이다.

지역(region)에 따른 gnp per capita(gnppc)의 평균과 표준편차, 그리고 region의 빈도를 제시한다.

tab에 대한 설명이 길었는데, tab은 잘 사용해야 하는 명령어 중 하나이니 help창을 활용하여 tab의 여러 기능을 확인하고 목적에 맞게 잘 사용하면 좋을 것이다.

 

 

2. sum

sum + 변수명 : 해당 변수의 관찰값, 평균, 표준편차, 최솟값, 최댓값 등 기초통계값을 제공하는 명령어
sum +
변수명detail : 해당 변수의 부가적인 기초통계값을 제공하는 명령어

sum이라는 명령어는 변수의 기초통계값을 제공하는 명령어로뒤에 detail이라는 옵션을 붙이면 추가적으로 백분위수와 분산(variance), 왜도(skewness), 첨도(kurtosis)를 알 수 있다. sum 뒤에 변수명은 원하는 대로 붙일 수 있으며, 데이터의 모든 변수에 대한 기초통계값을 얻고 싶을 때는 그냥 sum만 쳐도 된다

lifeexp  데이터에서 sum만 치면 6개 모든 변수에 대한 기초통계값을 제공한다.
sum  뒤에 변수는 하나만 쓸 수 있는 것이 아니라 원하는만큼 붙일 수 있다 .

sum 뒤에 변수를 일일히 나열하기 귀찮은 경우 -를 사용하면 popgrowth safewater를 포함하여 그 사이에 있는 변수들의 기초통계값을 제공한다.

sum 변수는 기본적으로 데이터를 분석하기 전, 전체 데이터를 쭉 살펴보는 과정에서 기본적으로 실행해봐야 하는 명령어이다. sum을 통한 결과창만으로 결측값은 없는지(관측값 확인), 코딩이 잘못된 부분은 없는지(최솟값과 최댓값을 보거나 그 외 다른 통계값이 비정상적인 값은 아닌지 확인하기) 등을 대충은 파악할 수 있기 때문이다.

반응형