통계공부/개념 및 이론

홍두승, 설동훈(2012). 사회조사분석 - Ch8. 기술통계(1)

대학원생A씨 2021. 3. 4. 09:15
반응형

해당 포스팅은 홍두승과 설동훈이 집필한 「사회조사분석」의 내용을 정리한 것으로 모든 출처는 아래와 같다.

 

홍두승, 설동훈(2012). 「사회조사분석」. 서울: 다산출판사

Ch8. 기술통계

도표

도수분포(frequency distribution)

- 도수(frequency): 각 변숫값에 해당되는 관측값의 수

- 상대도수(relative frequency): 전체 사례수 중 그 범주에 속한 사례의 비율

 그림표(graph)

- 변수의 분포를 시각적으로 파악할 수 있도록 해 줌

- 그림표의 종류에는 파이그림표, 막대그림표, 꺽은선그림표, 누적백분율곡선이 있는데, 명목변수는 파이나 막대, 서열변수는 막대, 등간변수는 막대나 꺾은선그림표로 나타내는 것이 좋음

파이그림표(pie graph): 전체를 나타내는 원을 그린 후 각 범주가 전체에서 차지하는 비율만큼 면적을 차지하도록 그림 그림표
막대그림표(histogram): 변숫값을 가로축으로 하고 관측도수를 세로축으로 하여 그린 그림표
꺾은선그림표(polygon): 막대그림표에서 막대의 양쪽을 없애고 변숫값의 바로 위에 도수에 해당되는 높이로 하나의 점을 찍은 다음 각각의 점들을 이어 그린 그림표로, 각 변숫값의 도수를 찾아내는 데 편리한 막대그림표와 달리 분포의 유형과 변숫값에 따른 빈도의 변화를 더 잘 보여줄 수 있음
누적백분율곡선(cumulative percentage curve, ogive): 누적상대도수(cumulative relative frequency)를 도표상에 나타낸 것으로 개별 관측값이 그 집단에서 개략적으로 어디쯤 위치하는가를 파악하는 데 용이함.

 

기술통계치

  • 기술통계(descriptive statistics): 관찰 자료의 속성 요약에 관한 것
  • 비율(proportion):  개별 관측값을 해당 범주에 하나씩 집어넣었을 때 각 범주 속에 포함된 사례수를 전체의 사례수로 나눈 것으로 상대도수와 같은 개념으로, 각 범주가 0에서 1 값 사이에 있도록 표준화되어 있어 집단 간 비교가 용이
  • 백분율(percentage): 비율에 100을 곱하여 구한 값
  • (ratio): 두 범주 간의 관계를 나타내는 것으로 X/Y와 같은 형태를 취하는 것으로 비율도 비의 한 형태
  • (rate): 비의 한 형태로서 인구성장률, 경제성장률 등에서와 같이 증가 또는 감소의 변화를 나타내고자 할 때 많이 쓰임

 

중심집중치

  • 자료가 갖는 전형적 이질성의 정도를 하나의 수치로 나타내기도 하는데, 도수분포의 중심을 특징짓는 기술통계치를 중심집중치(measure of central tendency)라 함.

 

1) 평균값

평균(average): 개별 관측값을 모두 더한 다음 그것을 관측사례(표본)의 수로 나눈 값

평균의 기초적 특성

   - 평균은 적어도 등간척도의 수준에서 측정된 자료에 사용되어야 함

   - 평균은 각 관측값에 동일한 가중치가 주어질 때, 수치상의 균형점으로 해석될 수 있음

   - 모든 자료의 값을 이용하기 때문에 자료의 정보를 최대로 사용한다는 장점

   - 이상점(outlier)에 민감하게 반응

 

2) 중앙값

중앙값(median): 표본의 변숫값들을 크기순으로 배열하였을 때 중앙의 위치에 놓이게 되는 값으로 특히 표본의 변숫값의 분포가 한쪽으로 치우쳐 있을 때 도수분포의 대푯값으로 자주 사용하는 중심집중치

중앙값의 속성

   - 서열척도 이상의 수준에서 측정된 자료에 사용 가능

   - 종모양의 대칭적 분포에서는 중앙값=평균값

   - 한쪽으로 치우쳐진 분포에서 중앙값은 평균값에 비해 상대적으로 짧은 꼬리쪽에 위치

   - 중앙값은 단순히 서열적 특징에 기초한 것이므로 최소 또는 최댓값이 다르더라도 중앙값은 동일할 수 있음

 

 

반응형