일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- SPLIT
- Sawzall
- pig
- 분포
- 하둡
- 유사도
- dict
- 데이터프레임
- SQL on 하둡
- 결정계수
- k-means
- T-검정
- 딕셔너리
- pca
- Python
- 분산분석
- DataFrame
- hive
- 교차검증
- merge
- DBSCAN
- 밀도기반
- 가설검정
- distribution
- 다중공선성
- 병렬 쿼리 시스템
- list
- join
- cross validation
- p-value
- Today
- Total
one of a kind scene
[ADP 대비] 회귀분석에서 변수선택 방법 본문
변수선택 방법
변수선택 방법은 최적의 회귀방정식 선택에 도움을 주는 방법론이다
- 1) 전진선택법(forward selection)
- 2) 후진제거법(backward elimination)
- 3) 단계선택법(stepwise method)
1. 최적회귀방정식의 선택
① 설명변수 선택
• 필요한 변수만 (상황에 따라 타협을 통해) 선택
• y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 사용
• 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 선택한다.
• 라이브 서비스를 가정한다면 변수의 수가 줄어들면 계산량이 줄어 모델의 실행 속도 등이 증가하는 반사 이익도 얻을 수 있음
② 모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법
• 모든 가능한 조합의 회귀분석(All possible regression) : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀모형을 선택
2. 단계적 변수선택(Stepwise Variable Selection) 방법
구분 | 설명 | 장.단점 |
전진선택법 (forward selection) |
• 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 |
<장점> 전진선택법은 이해하기 쉽고 변수의 개수가 많은 경우에도 사용가능 |
<단점> 변수값의 작은 변동에도 그 결과가 크게 달라져 안정성이 부족 |
||
후진제거법 (backward elimination) |
• 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택 |
<장점> 후진제거법은 전체 변수들의 정보를 이용하는 장점이 있음 |
<단점> 변수의 개수가 많은 경우 사용하기 어려움 |
||
단계선택법 (stepwise method) |
• 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단 |
3. 변수선택에 사용되는 벌점(penalty)화 기준 = 벌점화된 선택기준
• 모형의 복잡도에 벌점을 주는 방법으로 AIC 방법과 BIC 방법이 주로 사용됨
• 모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택
• AIC를 활용하는 방법이 보편화된 방법
• 그밖의 벌점화 선택기준으로 RIC(risk inflation criterion), CIC(covariance inflation citerion), DIC(deviation information criterion) 가 있다
(참고)
• 모형선택의 일치성(consistency inselection) : 자료의 수가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최소값을 갖게 되는 성질
• 이론적으로 AIC에 대해서 일치성이 성립하지않지만 BIC는 주요 분포에서 이러한 성질이 성립함