통계공부/개념 및 이론

홍두승, 설동훈(2012). 사회조사분석 - Ch8. 기술통계(2)

대학원생A씨 2021. 3. 5. 09:20
반응형

해당 포스팅은 홍두승과 설동훈이 집필한 「사회조사분석」의 내용을 정리한 것으로 모든 출처는 아래와 같다.

 

홍두승, 설동훈(2012). 「사회조사분석」. 서울: 다산출판사

Ch8. 기술통계

편포도와 첨도

편포도(skewness): 분포가 어느 정도 한쪽으로 치우쳐져 있느냐를 뜻함

   ☞ 평균 > 중앙값: 편포도는 양(+)의 값 = 오른쪽으로 꼬리부분이 길게 뻗은 모양(right-skewed)

       평균 < 중앙값: 편포도는 음(-)의 값 = 왼쪽으로 꼬리부분이 길게 뻗은 모양(left-skewed)

 첨도(kurtosis): 분포가 가진 첨예의 정도로 어느 정도 뾰족하게 나타냐는냐(꼬리부분의 두터움과 중앙부분의 뾰족한 정도)

   - 첨도가 양(+)인 경우: 정규분포에 비해 중심부분이 뾰족하고 꼬리부분이 두터움(급첨, leptokurtosis)

   - 첨도가 음(-)인 경우: 정규분포에 비해 중심부분이 완만하고 꼬리부분이 짧음(완첨, platykurtosis)

 

최빈값

최빈값(modal category): 도수가 가장 많은 범주를 의미하며, 범주화된 도수분포에서 많이 사용

최빈값의 속성

   - 모든 측정수준에서 사용가능

   - 도수분포에서 빈도가 가장 많은 값이 두 개 또는 그 이상일 경우 2봉적(bimodal), 3봉적(trimodal), 다봉적(multimodal)이라고도 부른다.

   - 종모양의 대칭적 분포에서는 평균값, 중앙값, 최빈값은 동일

 

산포도

1) 범위

  • 범위(range): 관측된 자료의 최댓값과 최솟값의 차이
  • 일반적인 관측결과에서 동떨어진 사례가 있을 경우 분포를 제대로 반영해내지 못한다는 약점

2) 사분편차

  • 사분편차(quartile deviation): 자료를 일정순서에 따라 배열했을 때 제1사분위수와 제3사분위수의 차를 2로 나누어 구함
  • 예외적인 사례로부터 영향을 덜 받기 때문에 분포가 비대칭적인 경우에 사용

3) 분산과 표준편차

  • 편차: 개별 관측값들이 평균과 떨어져 있는 정도
  • 편차의 합은 항상 0이 되기 때문에 분산은 편차의 제곱을 이용하여 구함
  • 분산(variance): 산포도를 나타내는 가장 중요한 측정치

4) 변동계수

  • 평균이 크게 다른 두 개 이상의 집단을 비교할 경우, 평균값이 크면 표준편차의 값도 커지기 때문에 표준편차의 절대크기만을 비교하게 되면 오류에 빠질 수 있음. 변동계수(coefficient of variation, cv)는 이러한 이유에서 고안된 것으로 평균에 대한 표준편차의 상대적 크기에 주목한 것으로, 변동비(variation ratio) 혹은 상대변동계수(coefficient of relative variation)라고도 함.

5) 표준점수

  • 각각 다른 평균과 표준편차를 고려하여 분포 간의 점수를 비교하려면 표준점수(standardized score)를 이용하게 되는데, 이를 흔히 Z점수(Z-score)라고 한다.
  • Z점수를 사용하게 되면 각 분포의 모든 점수들이 같은 척도상에 있게 되고, 그 척도의 측정단위는 표준편차가 된다.
  • 모든 Z값 분포의 평균은 0, 분산과 표준편차는 1로 동일

 

 

반응형