일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- DBSCAN
- 다중공선성
- 결정계수
- 데이터프레임
- pca
- p-value
- pig
- 유사도
- SQL on 하둡
- 분포
- Sawzall
- DataFrame
- 분산분석
- distribution
- T-검정
- merge
- 밀도기반
- 교차검증
- Python
- k-means
- cross validation
- 병렬 쿼리 시스템
- SPLIT
- 딕셔너리
- dict
- hive
- 하둡
- list
- join
- 가설검정
- Today
- Total
one of a kind scene
k-fold cross validation에 대해서 본문
K-fold cross validation

언제사용?
- 모델이 잘 적합(fitting) 됐는지 확인할 때
1) 주로 over-fitting 여부를 확인할 때 사용
2) 데이터의 양이 충분하지 않을 때(=적을 때) 모델의 성능에 대한 신뢰도를 확보하기 위해 사용
k번 모두 모델의 성능이 일정하면 → 모델의 성능에 대한 신뢰도가 확보됨
- 모델의 성능 향상
1) k번 학습을 통해 만들어진 k개의 모델을 활용하여 앙상블(Ensemble)모델을 만든다면, 모델의 성능향상을 기대할 수 있음(예 : Bagging, Boosting)
2) k번 학습을 통해 만들어진 k개의 모델에서 나온 parameter들의 평균값으로 완벽하진 않지만 납득할 수 있는 parameter값을 찾을 수 있음
장점?
- data set을 k번 골고루 학습시켜보기 때문에 모델이 잘 적합됐는지 확인가능(=모델의 성능에 대한 신뢰도가 확보됨)
- data set을 k개의 모델에서 나온 parameter들의 평균값을 활용하면 완벽하진 않지만, 1개의 train/test 데이터 셋을 사용할 때 보다는 납득할 수 있는 parameter 값을 구할 수 있음(=hyper parameter tuning)
- k번 학습을 통해 만들어진 k개의 모델을 활용하여 앙상블(Ensemble)모델을 만든다면, 모델의 성능향상을 기대할 수 있음(예 : Bagging, Boosting)
단점?
- 여러번(=k번) 학습시켜보기 때문에 시간이 많이 소요
(참조)cross validation으로 hyper parameter tuning하는 방법에 대한 설명
https://cinema4dr12.tistory.com/1275
[Artificial Intelligence / Posts] 교차검증 (Cross-validation)
Written by Geol Choi | Sep. 30, 2017 이번 포스팅은 교차검증에 대한 간단한 개념만 설명합니다. 개요 머신러닝 모델을 설계하다보면 설계에 필요한 파라미터들이 있습니다. 즉, 모델의 동작을 위해 결정되어야..
cinema4dr12.tistory.com
'데이터 분석 이론 > 데이터 사이언스' 카테고리의 다른 글
word2vec에 대해서 (0) | 2020.02.01 |
---|---|
[용어] 배치 작업 vs 실시간 작업 (0) | 2020.01.10 |
[용어 차이] regression에서 prediction vs forecast 차이 (0) | 2020.01.05 |
[유사도] 거리 기반 유사도(유클리디안 거리) vs 각도 기반 유사도(코사인 유사도) (1) | 2019.12.12 |
[알고리즘] PCA는 언제? 왜? 쓸까? (0) | 2019.10.14 |