one of a kind scene

2장 정형 데이터마이닝_재표본추출(Resampling) 본문

ADP/이론

2장 정형 데이터마이닝_재표본추출(Resampling)

specialscene 2019. 11. 13. 22:22

재표본추출(Resampling)

1. 재표본추출(Resampling)이란?

    - 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식

    - k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다

 

2. K-fold cross validation

    - 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법

    - 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함

    - 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용

K-fold cross validation

3. 붓트랩(bootstrap)

    - 배깅과 부스팅과 연결지어 알아두면 좋은 개념

    - 모집단에서 추출한 표본(샘플)에 대해서 또 다시 재표본(샘플)을 여러 번 추출하여 모델을 평가

    - 데이터의 분포를 파악하는 방법으로도 사용됨

    - 샘플링을 할 때는 단순랜덤 복원추출법을 사용

    - 따라서, 특정 데이터가 여러 샘플에 포함될 수도 있고, 어떠한 샘플에도 포함되지 않을 수도 있다.

    - 붓스트랩을 통해 100개의 샘플을 추출했을 때 샘플에 한 번도 선택되지 않는 원데이터가 발생할 확률은 36.8%

    - 이러한 데이터를 OOB(out-of-bag) 데이터 라고 함

    - OOB 데이터의 실제값과 예측값 사이의 오차로 정의되는 값을 OOB-error(out-of-bag error)라고 한다.

 

4. 홀드아웃(hold out)

    - 데이터를 단순히 (반반으로 ) 훈련, 테스트로 나누어 검증하는 방법

    - k번하는 k-fold cross validation과는 차이가 있음