해당 포스팅은 홍두승과 설동훈이 집필한 「사회조사분석」의 내용을 정리한 것으로 모든 출처는 아래와 같다.
홍두승, 설동훈(2012). 「사회조사분석」. 서울: 다산출판사
Ch12. 회귀분석과 경로분석
회귀분석
1) 중회귀분석과 중상관분석
▶ 중회귀분석은 종속변수 Y를 예측하기 위하여 두 개 이상의 독립변수를 고려할 때 사용한다.
▶ 중회귀분석의 이점은 하나의 독립변수를 사용한 경우보다 종속변수를 더 정확히 예측 가능하며, 다른 독립변수들을 통제한 상태에서 개별 독립변수와 종속변수 간의 부분관계를 분석할 수 있다.
▶ 중회귀분석의 가정
(1) 특정화 과정에서 오차(specification error)가 없다. 즉, X와 Y의 관계는 선형이며, 종속변수를 설명하는 데 적절한 독립변수는 모두 회귀식에 포함되어 있다.
(2) 측정오차(measurement error)가 없다. 즉, X와 Y가 정확하게 측정되어 있다.
(3) 오차에 대한 가정
① 오차의 기댓값은 0이다.
② 동분산성(homoscedasticity)를 가정한다. 즉, 각각의 X값에 대한 Y의 분산은 동일하다.
③ 오차항 간에는 자기상관(autocorrelation)이 없다.
④ 오차항은 독립변수와 선형독립(linearly independent)이다.
⑤ 오차의 항은 정규분포한다.
(4) 표본의 수가 독립변수항의 수(상수항 포함)보다 항상 커야 한다.
(5) 설명변수, 즉 독립변수들은 독립적이어야 한다. ☞ 다중공선성
다중공선성이란, 고전적 회귀모델의 기본가정 중 독립변수들간에는 상관관계가 없다는 가정이 깨어진 경우로서, 독립변수들간에 완전히 또는 상당히 강한 상관관계가 있는 경우 발생한다. 다중공선성이 존재할 경우, 회귀계수의 분산이 엄청나게 커져, 각 회귀계수를 검증하거나 해석하는 것이 무의미하게 되어 버리므로 적절한 조치를 취할 필요가 있다. 다중공선성이 있는 경우, 근본적으로 자료를 새로 얻는 방법이 요구되지만 비용 등의 문제로 인해 모델에 무리가 가지 않는 한 상관된 변수들 중 하나를 제거시키든지 아니면 자료의 수를 늘려 현재 자료의 다중공선성을 희석시킨다.
▶ 비표준화/표준화 회귀계수
- 비표준화 회귀계수(unstandardized regression coefficients)
- 표준화 회귀계수(standardized regression coefficients): 독립변수와 종속변수를 모두 Z점수로 표준화시켜 구한 회귀계수로, 측정 단위가 다른 독립변수들의 상대적 영향력을 비교할 수 있다. 비표준화회귀계수에 독립변수 X의 표준편차를 곱하고 이를 종속변수 Y의 표준편차로 나눈 값이다.
▶ 중결정계수(multiple coefficient of determination; )
- 표본의 중회귀모형에서 총변동 중 회귀선에 의한 변동이 차지하는 비율
- 중회귀분석의 결과로 구해진 회귀식에서 종속변수의 총변동 중 여러 개의 예측변수들이 동시에 설명하는 부분의 비율을 의미
▶ 부분상관계수(partial correlation coefficient)
- 다른 변수를 통제한 상태에서 두 변수 간의 관계가 어느 정도인가를 알아보기 위한 것
- 단순상관관계에서처럼 아무런 변수도 통제되지 않은 상태에서의 두 변수 간의 상관계수를 무차상관계수(zero-order correlation coefficient), 두 개의 변수가 통제된 상태에서의 상관계수를 2차 부분상관계수라 한다.
- 중회귀분석에서는 회귀계수가 부분상관계수와 같음
'통계공부 > 개념 및 이론' 카테고리의 다른 글
로지스틱 회귀분석 (0) | 2022.12.13 |
---|---|
홍두승, 설동훈(2012). 사회조사분석 - Ch12. 회귀분석과 경로분석(1) (0) | 2021.03.10 |
홍두승, 설동훈(2012). 사회조사분석 - Ch10. 분할표분석~Ch11. 집단 간 비교분석 (0) | 2021.03.09 |
홍두승, 설동훈(2012). 사회조사분석 - Ch9. 추리통계(2) (0) | 2021.03.08 |
홍두승, 설동훈(2012). 사회조사분석 - Ch9. 추리통계(1) (0) | 2021.03.07 |