통계공부/개념 및 이론

홍두승, 설동훈(2012). 사회조사분석 - Ch12. 회귀분석과 경로분석(2)

대학원생A씨 2021. 3. 11. 09:10
반응형

해당 포스팅은 홍두승과 설동훈이 집필한 「사회조사분석」의 내용을 정리한 것으로 모든 출처는 아래와 같다.

 

홍두승, 설동훈(2012). 「사회조사분석」. 서울: 다산출판사

Ch12. 회귀분석과 경로분석

회귀분석

1) 중회귀분석과 중상관분석

중회귀분석종속변수 Y를 예측하기 위하여 두 개 이상의 독립변수를 고려할 때 사용한다.

중회귀분석의 이점하나의 독립변수를 사용한 경우보다 종속변수를 더 정확히 예측 가능하며, 다른 독립변수들을 통제한 상태에서 개별 독립변수와 종속변수 간의 부분관계를 분석할 수 있다.

중회귀분석의 가정

   (1) 특정화 과정에서 오차(specification error)가 없다. , XY의 관계는 선형이며, 종속변수를 설명하는 데 적절한 독립변수는 모두 회귀식에 포함되어 있다.

   (2) 측정오차(measurement error)가 없다. , XY가 정확하게 측정되어 있다.

   (3) 오차에 대한 가정

      ① 오차의 기댓값은 0이다.

      ② 동분산성(homoscedasticity)를 가정한다. , 각각의 X값에 대한 Y의 분산은 동일하다.

      ③ 오차항 간에는 자기상관(autocorrelation)이 없다.

      ④ 오차항은 독립변수와 선형독립(linearly independent)이다.

      ⑤ 오차의 항은 정규분포한다.

   (4) 표본의 수가 독립변수항의 수(상수항 포함)보다 항상 커야 한다.

   (5) 설명변수, 즉 독립변수들은 독립적이어야 한다. ☞ 다중공선성

다중공선성이란, 고전적 회귀모델의 기본가정 중 독립변수들간에는 상관관계가 없다는 가정이 깨어진 경우로서, 독립변수들간에 완전히 또는 상당히 강한 상관관계가 있는 경우 발생한다. 다중공선성이 존재할 경우, 회귀계수의 분산이 엄청나게 커져, 각 회귀계수를 검증하거나 해석하는 것이 무의미하게 되어 버리므로 적절한 조치를 취할 필요가 있다. 다중공선성이 있는 경우, 근본적으로 자료를 새로 얻는 방법이 요구되지만 비용 등의 문제로 인해 모델에 무리가 가지 않는 한 상관된 변수들 중 하나를 제거시키든지 아니면 자료의 수를 늘려 현재 자료의 다중공선성을 희석시킨다.

비표준화/표준화 회귀계수

   - 비표준화 회귀계수(unstandardized regression coefficients)

   - 표준화 회귀계수(standardized regression coefficients): 독립변수와 종속변수를 모두 Z점수로 표준화시켜 구한 회귀계수로, 측정 단위가 다른 독립변수들의 상대적 영향력을 비교할 수 있다. 비표준화회귀계수에 독립변수 X의 표준편차를 곱하고 이를 종속변수 Y의 표준편차로 나눈 값이다.

중결정계수(multiple coefficient of determination; )

   - 표본의 중회귀모형에서 총변동 중 회귀선에 의한 변동이 차지하는 비율

   - 중회귀분석의 결과로 구해진 회귀식에서 종속변수의 총변동 중 여러 개의 예측변수들이 동시에 설명하는 부분의 비율을 의미

부분상관계수(partial correlation coefficient)

   - 다른 변수를 통제한 상태에서 두 변수 간의 관계가 어느 정도인가를 알아보기 위한 것

   - 단순상관관계에서처럼 아무런 변수도 통제되지 않은 상태에서의 두 변수 간의 상관계수를 무차상관계수(zero-order correlation coefficient), 두 개의 변수가 통제된 상태에서의 상관계수를 2차 부분상관계수라 한다.

   - 중회귀분석에서는 회귀계수가 부분상관계수와 같음

반응형