일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 분포
- 하둡
- pig
- 분산분석
- hive
- Sawzall
- DBSCAN
- 다중공선성
- 가설검정
- 딕셔너리
- Python
- 교차검증
- list
- join
- merge
- p-value
- 데이터프레임
- 밀도기반
- cross validation
- T-검정
- pca
- 병렬 쿼리 시스템
- dict
- distribution
- DataFrame
- 유사도
- SQL on 하둡
- k-means
- SPLIT
- 결정계수
- Today
- Total
one of a kind scene
k-fold cross validation에 대해서 본문
K-fold cross validation
언제사용?
- 모델이 잘 적합(fitting) 됐는지 확인할 때
1) 주로 over-fitting 여부를 확인할 때 사용
2) 데이터의 양이 충분하지 않을 때(=적을 때) 모델의 성능에 대한 신뢰도를 확보하기 위해 사용
k번 모두 모델의 성능이 일정하면 → 모델의 성능에 대한 신뢰도가 확보됨
- 모델의 성능 향상
1) k번 학습을 통해 만들어진 k개의 모델을 활용하여 앙상블(Ensemble)모델을 만든다면, 모델의 성능향상을 기대할 수 있음(예 : Bagging, Boosting)
2) k번 학습을 통해 만들어진 k개의 모델에서 나온 parameter들의 평균값으로 완벽하진 않지만 납득할 수 있는 parameter값을 찾을 수 있음
장점?
- data set을 k번 골고루 학습시켜보기 때문에 모델이 잘 적합됐는지 확인가능(=모델의 성능에 대한 신뢰도가 확보됨)
- data set을 k개의 모델에서 나온 parameter들의 평균값을 활용하면 완벽하진 않지만, 1개의 train/test 데이터 셋을 사용할 때 보다는 납득할 수 있는 parameter 값을 구할 수 있음(=hyper parameter tuning)
- k번 학습을 통해 만들어진 k개의 모델을 활용하여 앙상블(Ensemble)모델을 만든다면, 모델의 성능향상을 기대할 수 있음(예 : Bagging, Boosting)
단점?
- 여러번(=k번) 학습시켜보기 때문에 시간이 많이 소요
(참조)cross validation으로 hyper parameter tuning하는 방법에 대한 설명
https://cinema4dr12.tistory.com/1275
'데이터 분석 이론 > 데이터 사이언스' 카테고리의 다른 글
word2vec에 대해서 (0) | 2020.02.01 |
---|---|
[용어] 배치 작업 vs 실시간 작업 (0) | 2020.01.10 |
[용어 차이] regression에서 prediction vs forecast 차이 (0) | 2020.01.05 |
[유사도] 거리 기반 유사도(유클리디안 거리) vs 각도 기반 유사도(코사인 유사도) (1) | 2019.12.12 |
[알고리즘] PCA는 언제? 왜? 쓸까? (0) | 2019.10.14 |