통계공부/개념 및 이론

홍두승, 설동훈(2012). 사회조사분석 - Ch9. 추리통계(2)

대학원생A씨 2021. 3. 8. 09:00
반응형

해당 포스팅은 홍두승과 설동훈이 집필한 「사회조사분석」의 내용을 정리한 것으로 모든 출처는 아래와 같다.

 

홍두승, 설동훈(2012). 「사회조사분석」. 서울: 다산출판사

Ch9. 추리통계

표본분포

1) 표본분포 개념

모수(parameter): 모집단의 특성값

통계량(statistic): 표본으로부터 계산되는 표본의 특성값

표본분포(sampling distribution): 한 모집단에서 같은 크기로 뽑을 수 있는 모든 표본에서 통계량을 계산할 때 그 통계량이 이루는 확률분포

 

2) 중심극한정리

중심극한정리(central limit theorem): 평균이 μ이고 분산이 σ^2인 무한모집단에서 크기 n인 무작위 표본을 뽑았을 때, n이 충분히 크면 모집단의 분포 모양에 관계없이 표본 평균은 근사적으로 평균이 μ이고 분산이 σ^2/n 인 정규분포를 따른다.

표집오차(sampling error): 표본집단의 평균과 모집단의 평균의 차이

   - 표집오차는 보통 표본의 크기와 반비례

 표준오차(standard error)

   - 표집오차를 추정하면 표본평균을 이용하여 모평균을 추정할 수 있지만, 보통은 모집단의 평균을 알지 못하기에 표준오차 개념을 사용한다.

   - 표준오차는 표집분포의 표준편차로 σ/루트(n)으로 나타낸다.

 

추정표본분포

추정(estimation): 표본에서 얻은 정보를 이용하여 모수를 추리하는 과정

추정량(estimator): 표본에서 구한 통계량으로 모수에 대해 추정한 값

   - 불편추정량(unbiased estimator): 표본에서 구한 추정량의 기댓값이 그 추정량이 추정하고자 하는 모수와 일치할 때의 통계량

   - 편의추정량(biased estimator): 모수와 차이가 나는 표본추정량으로 모수추정에 사용불가

추정에는 모수를 하나의 값으로 추정하는 점추정(point estimation)과 구간으로 추정하는 구간추정(interval estimation)으로 구분된다.

   - 연구자가 표본평균 주위에 설정한 구간을 신뢰구간(confidence interval)이라 하는데, 신뢰구간이란 모수가 일정한 확률로 포함되리라 기대되는 구간을 뜻한다.

   - 신뢰구간 95%란 같은 크기의 표집을 반복하여 신뢰구간을 설정했을 경우 그 구간들 중 95%가 모집단의 모수를 포함할 것이다라는 뜻이다.

 

가설검정

가설검정(hypothesis testing): 표본자료를 이용하여 통계적인 방법으로 모집단의 특성에 대한 주장을 채택하거나 기각하는 의사결정으로, 모수에 대한 특정한 가설을 세워놓고 표본에서 계산된 통계량을 기초하여 그 가설의 채택 여부를 판단하는 것

가설검정의 절차

대립가설의 설정
영가설(null hypothesis)의 설정
   - 영가설: 모집단에서 두 변수 간에 관계가 존재하지 않는다는 식으로 만들어진 가설로 통계적 가설검정의 대상
   - 대립가설: 영가설에 상반되는 가설
영가설 기각을 위한 통계적 유의수준(significance level)의 설정
영가설 기각역(rejection region)수용역(acceptance region)의 설정
   - 임계치(critical value)는 주어진 유의수준에서 영가설의 채택과 기각에 관한 의사결정을 할 때 기준이 되는 점으로 기각치라고도 함
검정통계량(test statistic)의 결정: 적합한 공식에 표본 통계량을 대입하여 검정통계량 계산
결과 해석: 통계적 유의수준에 근거하여 검정통계량과 임계치를 비교하여 영가설을 기각 여부를 결정

α오류와 β오류

   - α오류: 모집단에서 영가설이 진실임에도 불구하고 표본의 결과에 따라 영가설을 기각한 경우

   - β오류: 모집단에서 영가설이 허위임에도 불구하고 표본의 결과에 따라 영가설을 기각하지 못한 경우

반응형