통계공부/개념 및 이론

로지스틱 회귀분석

대학원생A씨 2022. 12. 13. 13:01
반응형

심리학, 교육학, 사회복지학 등 많은 분야에서 이항형(dichotomous) 또는 다항형(polytomous) 종속변수를 사용한다. 예를 들면, 독립변수를 이용해서 우울증 여부를 판단한다든지, 합격 또는 불합격을 예측한다든지, 특정 정당지지 여부를 예측해야 하는 경우가 있다. 이 경우에는 종속변수가 연속변수가 아니고 비연속 변수 또는 범주형 변수이므로 일반적인 선형(linear) 회귀분석을 사용할 수 없게 된다.

 

종속변수가 이분변수일 경우에는 독립변수 값의 변화에 따라 종속변수 값이 자유롭게 변할 수 있는 것이 아니라 0또는 1로 나누어진다. 이 경우에 선형회귀분석을 적용하면 독립변수와 종속변수의 관계를 제대로 설명하지 못하게 된다.

이러한 문제점을 해결하기 위해 종속변수가 이분변수일 경우에는 선형함수 대신 S자 곡선의 로지스틱 함수를 적용한다.

로지스틱 함수를 사용함으로써 확률의 개념을 지니고 있는 종속변수 값이 0 1 사이를 벗어나지 않을 수 있으며, 선형함수와 달리 x의 효과가 x의 위치에 따라 달라진다.

출처: 홍세희 (2011). 이항 및 다항 로지스틱 회귀분석. 파주: 교육과학사.

 

 

로지스틱 모형의 추정

  • 전통적인 회귀분석에서는 최소 자승화 기준을 이용한 추정방법을 이용하였다면 로지스틱 모형에서는 최대 우도법(maximum likelihood)이라는 추정방법을 적용한다. 최대 우도법에서는 관찰 자료의 가능성을 최대화하는 값으로 미지수의 추정치를 구한다.
  • 최대 우도법을 적용에 있어 유의성 검증결과가 신뢰할만한지에 대해 Long(1997)이 제안한 2가지 기준은 다음과 같다. 첫째, 미지수 하나를 추정하는데 최소 10명이 필요하다. 둘째, 표본크기가 최소 100명은 되어야 한다. 이 두 가지 조건 중에서 더 많은 표본크기를 제시하는 조건을 따르면 된다.
  • 로지스틱 회귀모형에서는 적합도 평가를 위해 분석모형과 포화모형을 비교한다. 여기서 포화모형이란 자료수만큼 미지수(parameter)를 포함하여 자료를 완벽하게 설명하는 모형을 뜻한다. 구체적으로 포화모형에 비해 분석모형의 적합도가 얼마나 나쁜지를 우도비(likelihood ratio: LR) 혹은 정보지수(information criterion)를 이용하여 검증한다. 많이 사용되는 정보 지수로는 Akaike 정보지수(Akaike’s information criterion: AIC, Akaike, 1973)와 베이지안 정보지수(Bayesian information criterion: BIC, Raftery, 1995)가 있다.
  • 선형 회귀분석에서는 결정계수R^2를 이용해 모형의 설명력을 해석하지만 로지스틱 회귀분석에서는 이를 주의할 필요가 있다. 왜냐하면 선형 회귀분석과 달리 로지스틱 회귀분석에서는 오차의 동분산성 가정이 만족되지 않으며, 로지스틱 회귀분석에서 구한 R^2는 대게 낮게 나오는 편이다(Hosmer & Lemeshow, 2000).
반응형