일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 유사도
- 결정계수
- pig
- pca
- hive
- list
- SQL on 하둡
- dict
- Python
- T-검정
- 밀도기반
- join
- merge
- 분포
- cross validation
- DataFrame
- 분산분석
- 데이터프레임
- distribution
- SPLIT
- 다중공선성
- 교차검증
- DBSCAN
- 하둡
- 딕셔너리
- k-means
- 가설검정
- p-value
- 병렬 쿼리 시스템
- Sawzall
- Today
- Total
one of a kind scene
2장 정형 데이터마이닝_재표본추출(Resampling) 본문
재표본추출(Resampling)
1. 재표본추출(Resampling)이란?
- 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식
- k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다
2. K-fold cross validation
- 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법
- 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함
- 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용
3. 붓트랩(bootstrap)
- 배깅과 부스팅과 연결지어 알아두면 좋은 개념
- 모집단에서 추출한 표본(샘플)에 대해서 또 다시 재표본(샘플)을 여러 번 추출하여 모델을 평가
- 데이터의 분포를 파악하는 방법으로도 사용됨
- 샘플링을 할 때는 단순랜덤 복원추출법을 사용
- 따라서, 특정 데이터가 여러 샘플에 포함될 수도 있고, 어떠한 샘플에도 포함되지 않을 수도 있다.
- 붓스트랩을 통해 100개의 샘플을 추출했을 때 샘플에 한 번도 선택되지 않는 원데이터가 발생할 확률은 36.8%
- 이러한 데이터를 OOB(out-of-bag) 데이터 라고 함
- OOB 데이터의 실제값과 예측값 사이의 오차로 정의되는 값을 OOB-error(out-of-bag error)라고 한다.
4. 홀드아웃(hold out)
- 데이터를 단순히 (반반으로 ) 훈련, 테스트로 나누어 검증하는 방법
- k번하는 k-fold cross validation과는 차이가 있음
'ADP > 이론' 카테고리의 다른 글
2장 정형 데이터마이닝_군집분석의 타당성 지표 (0) | 2019.11.13 |
---|---|
2장 정형 데이터마이닝_군집분석 (0) | 2019.11.13 |
2장 정형 데이터마이닝_분류분석(Classification) (0) | 2019.11.13 |
2장 정형 데이터마이닝_딥러닝(Deep Learning) (0) | 2019.11.13 |
2장 정형 데이터마이닝_변수선택(Feature Selection) (0) | 2019.11.13 |