2장 정형 데이터마이닝_재표본추출(Resampling)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

one of a kind scene

ADP/이론

specialscene 2019. 11. 13. 22:22

1. 재표본추출(Resampling)이란?

- 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식

- k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다

2. K-fold cross validation

- 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법

- 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함

- 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용

3. 붓트랩(bootstrap)

- 배깅과 부스팅과 연결지어 알아두면 좋은 개념

- 모집단에서 추출한 표본(샘플)에 대해서 또 다시 재표본(샘플)을 여러 번 추출하여 모델을 평가

- 데이터의 분포를 파악하는 방법으로도 사용됨

- 샘플링을 할 때는 단순랜덤 복원추출법을 사용

- 따라서, 특정 데이터가 여러 샘플에 포함될 수도 있고, 어떠한 샘플에도 포함되지 않을 수도 있다.

- 붓스트랩을 통해 100개의 샘플을 추출했을 때 샘플에 한 번도 선택되지 않는 원데이터가 발생할 확률은 36.8%

- 이러한 데이터를 OOB(out-of-bag) 데이터 라고 함

- OOB 데이터의 실제값과 예측값 사이의 오차로 정의되는 값을 OOB-error(out-of-bag error)라고 한다.

4. 홀드아웃(hold out)

- 데이터를 단순히 (반반으로 ) 훈련, 테스트로 나누어 검증하는 방법

- k번하는 k-fold cross validation과는 차이가 있음

2장 정형 데이터마이닝_군집분석의 타당성 지표 (0)	2019.11.13
2장 정형 데이터마이닝_군집분석 (0)	2019.11.13
2장 정형 데이터마이닝_분류분석(Classification) (0)	2019.11.13
2장 정형 데이터마이닝_딥러닝(Deep Learning) (0)	2019.11.13
2장 정형 데이터마이닝_변수선택(Feature Selection) (0)	2019.11.13

'ADP/이론' Related Articles