one of a kind scene

[ADP 대비] 회귀분석에서 변수선택 방법 본문

카테고리 없음

[ADP 대비] 회귀분석에서 변수선택 방법

specialscene 2020. 1. 24. 21:08

변수선택 방법

변수선택 방법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다

- 1) 전진선택법(forward selection)

- 2) 후진제거법(backward elimination)

- 3) 단계선택법(stepwise method)

 

1. 최적회귀방정식의 선택

     ① 설명변수 선택

          • 필요한 변수만 (상황에 따라 타협을 통해) 선택

          • y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용

          • 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 선택한다.

          • 라이브 서비스를 가정한다면 변수의 수가 줄어들면 계산량이 줄어 모델의 실행 속도 등이 증가하는 반사 이익도 얻을 수 있음

 

     ② 모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법

          • 모든 가능한 조합의 회귀분석(All possible regression) : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀모형을 선택

 

2. 단계적 변수선택(Stepwise Variable Selection) 방법

구분 설명 장.단점
전진선택법
(forward selection)
절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
<장점>
전진선택법은 이해하기 쉽고 변수의 개수가 많은 경우에도 사용가능
<단점>
변수값의 작은 변동에도 그 결과가
크게 달라져 안정성이 부족
후진제거법
(backward elimination)
독립변수 후보 모두를 포함한 모형에서 출발해
가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택
<장점>
후진제거법은 전체 변수들의 정보를 이용하는 장점이 있음
<단점>
변수의 개수가 많은 경우 사용하기 어려움
단계선택법
(stepwise method)
전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단  

 

3. 변수선택에 사용되는 벌점(penalty)화 기준 = 벌점화된 선택기준

     • 모형의 복잡도에 벌점을 주는 방법으로 AIC 방법과 BIC 방법이 주로 사용됨

     • 모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택

     • AIC를 활용하는 방법이 보편화된 방법

     • 그밖의 벌점화 선택기준으로 RIC(risk inflation criterion), CIC(covariance inflation citerion), DIC(deviation information criterion) 가 있다

 

     (참고)

     • 모형선택의 일치성(consistency inselection) : 자료의 수가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최소값을 갖게 되는 성질

     • 이론적으로 AIC에 대해서 일치성이 성립하지않지만 BIC는 주요 분포에서 이러한 성질이 성립함