one of a kind scene

[ADP 대비] 다중 (선형)회귀분석시 검토사항 본문

카테고리 없음

[ADP 대비] 다중 (선형)회귀분석시 검토사항

specialscene 2020. 1. 24. 20:24

다중 (선형)회귀분석

다중 (선형)회귀분석에서 '다중'의 뜻은 독립변수(X)의 갯수가 2개 이상임을 뜻함

다중 (선형)회귀분석은 2개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법

(그림1) 다중 (선형)회귀분석

 

1. 다중 (선형)회귀분석에서의 검토 사항

     ① 모형의 통계적 유의성

          • 모형의 통계적 유의성은 F-통계량으로 확인

          • 유의수준 5% 하에서 F-통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함

          • 귀무가설 : 회귀계수들은 모두 같다

          • 대립가설 : 회귀계수들은 모두 같지않다(=모두 다른값이다)

          • F-통계량이 크면 p-value가 0.05보다 작아짐 → 귀무가설 기각 = 대립가설 채택 = 회귀계수들은 모두 같지않다

 

     ② 회귀계수의 유의성

          • 회귀계수의 유의성은 단변량 회귀분석의 회귀계수 유의성 검토와 같이 t-통계량을 통해 확인

          • 회귀계수의 유의성이 검증된 회귀계수들을 가지고 이를 조합하여 모형으로 활용할 수 있다

 

     ③ 모형의 설명력

          • 결정계수(R^2)나 수정된 결정계수(adjusted R^2)를 확인

          • 0~1 사이 값을 가지며 1에 가까울수록 설명력이 높음

(참고)

2020/01/02 - [데이터 분석 이론] - [결정계수] R square와 adjusted R square

    

     ④ 모형의 적합성

          • 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인

 

     ⑤ 데이터가 회귀분석의 가정을 만족시키고있는가?

          • 회귀분석의 가정 5가지 : 선형성, 독립성, 등분산성, 비상관성, 정상성

(참고)

2020/01/22 - [분류 전체보기] - [ADP 대비] 회귀분석의 가정

 

     ⑥ 다중공선성(multicollinearity)

          • 분산팽창요인(VIF) : 4보다 크면 다중공선성이 존재한다고 볼 수 있고, 10보다 크면 심각한 문제가 있는 것으로 해석 

          • 상태지수 : 10 이상이면 문제가 있다고 보고, 30보다 크면 심각한 문제가 있다고 해석할 수 있음

          • 다중선형회귀분석에서 다중공선성의 문제가 발생하면, 문제가 있는 1)변수를 제거하거나 2)주성분회귀 3)능형회귀 모형을 적용하여 문제를 해결

          • 보통 결정계수값이 매우높으나 각 독립변수들의 계수가 유의하지 않은 경우 다중공선성을 의심해볼 수 있음

 

(참고)

- 결정계수(R^2)가 낮다면, 회귀식의 설명력은 낮다고 할 수 있음.

- 주의해야할 것은 결정계수(R^2)값이 낮다고해서 회귀식이 통계적으로 유의미하지 않다고 할 순 없음

- 통계적 유의성은 회귀계수에 대한 t-통계량 및 회귀식에 대한 F-통계량을 통해서 계산된 p-value를 통해서 판단해야 함