일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 유사도
- 교차검증
- hive
- 결정계수
- join
- 가설검정
- distribution
- SPLIT
- 분산분석
- DataFrame
- 밀도기반
- cross validation
- dict
- pca
- DBSCAN
- SQL on 하둡
- 분포
- Python
- list
- 하둡
- k-means
- 병렬 쿼리 시스템
- merge
- p-value
- 딕셔너리
- T-검정
- 데이터프레임
- Sawzall
- 다중공선성
- pig
- Today
- Total
one of a kind scene
2장 정형 데이터마이닝_분류분석(Classification) 본문
분류분석(Classification)
1. 나이브 베이즈 분류(Naive Bayes Classification)
- 베이즈 정리를 기본으로 하여 발전된 분류 방법
- 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정의
- 분모(=B가 일어날 확률)이 아래 식의 2번째 줄 처럼 나뉜다는게 핵심
- 분모(=B가 일어날 확률) = A가 일어났을 때 B가 일어날 확률 + A가 안일어났을 때 B가 일어날 확률
2. KNN(K-Nearest Neighbor Classification : K-최근접 이웃 알고리즘)
- 새로운 데이터의 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스(범주)로 결정
- k-means에서 k는 군집갯수, knn에서 k는 근접 이웃의 갯수
- k값은 보통 sqrt(데이터 갯수)로 함
- 적잘한 k갯수를 설정하는게 중요
- k를 너무 크게 설정 → 데이터들 끼리의 근접성이 떨어져 클러스터링이 잘 이루어지지 않음
- k를 너무 작게 설정 → 이상치 혹은 잡음 데이터와 이웃이 될 가능성이 있음
- 장점
• 사용이 간단
• 범주를 나눈 기준(=이유)를 몰라도 데이터 분류 가능
• 추가된(=새로운) 데이터의 처리 용이
- 단점
• k값 결정이 어려움
• 비수치 데이터의 경우 유사도 정의가 어려움
• 이상치에 민감
2. SVM(Support Vector Machine)
- 지도학습 모델이며, 주로 회귀와 분류 문제 해결에 사용
- 주어진 데이터 집합을 바탕으로 새로운 데이터가 어떤 범주에 속할 것인지를 판단하는
비확률적 이진 선형 분류 모델을 생성
- 좌측 그림처럼 분류를 할 수 있는 경계가 여러가지 있을 때, 가장 큰 폭을 가진 경계를 찾는다
- 폭이 크다는 것은 그만큼 분류의 여유가 있다고 볼 수 있음(여유있게 분류하고 있음)
- 경계(=초평면)에 가장 가까이에 붙어있는 최전방 데이터를 서포트 벡터(support vector)라고 함
- 서포트 벡터와 초평면사이의 수직 거리를 마진이라고 함
- SVM 모형은 선형 분류뿐만 아니라 비선형 분류에도 사용됨
- 비선형 분류에서는 입력자료를 다차원 공간상으로 매핑(mapping)할 때 커널 트릭(kernel trick)을 사용
※ 경계(초평면)은 어떤 n차원의 공간보다 한 차원이 낮은 n-1차원의 하위공간(subspace)를 뜻함
- 장점
• 분류와 예측에 모두 사용 가능
• 신경망 기법에 비해 과적합 정도가 낮다
• 예측의 정확도가 높다
• 저차원과 고차원의 데이터에 모두 잘 작동
- 단점
• 데이터 전처리와 매개변수 설정에 따라 정확도가 달라질 수 있음
• 예측이 어떻게 이루어지는지에 대한 이해와 모델에 대한 해석이 어려움
• 대용량 데이터에 대한 모형 구축 시 속도가 느리며, 메모리 할당량이 크다
'ADP > 이론' 카테고리의 다른 글
2장 정형 데이터마이닝_군집분석 (0) | 2019.11.13 |
---|---|
2장 정형 데이터마이닝_재표본추출(Resampling) (0) | 2019.11.13 |
2장 정형 데이터마이닝_딥러닝(Deep Learning) (0) | 2019.11.13 |
2장 정형 데이터마이닝_변수선택(Feature Selection) (0) | 2019.11.13 |
1장 통계분석_더빈 왓슨(Durbin Watson) 검정 (0) | 2019.11.13 |