one of a kind scene

2장 정형 데이터마이닝_분류분석(Classification) 본문

ADP/이론

2장 정형 데이터마이닝_분류분석(Classification)

specialscene 2019. 11. 13. 21:38

분류분석(Classification)

 

1. 나이브 베이즈 분류(Naive Bayes Classification)

     - 베이즈 정리를 기본으로 하여 발전된 분류 방법

     - 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정의

     - 분모(=B가 일어날 확률)이 아래 식의 2번째 줄 처럼 나뉜다는게 핵심

     - 분모(=B가 일어날 확률) = A가 일어났을 때 B가 일어날 확률 + A가 안일어났을 때 B가 일어날 확률

 

베이즈 정리

2. KNN(K-Nearest Neighbor Classification : K-최근접 이웃 알고리즘)

     - 새로운 데이터의 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스(범주)로 결정

     - k-means에서 k는 군집갯수, knn에서 k는 근접 이웃의 갯수

     - k값은 보통 sqrt(데이터 갯수)로 함

     - 적잘한 k갯수를 설정하는게 중요

     - k를 너무 크게 설정 → 데이터들 끼리의 근접성이 떨어져 클러스터링이 잘 이루어지지 않음

     - k를 너무 작게 설정 → 이상치 혹은 잡음 데이터와 이웃이 될 가능성이 있음

     - 장점

        • 사용이 간단

        • 범주를 나눈 기준(=이유)를 몰라도 데이터 분류 가능

        • 추가된(=새로운) 데이터의 처리 용이

     - 단점

        • k값 결정이 어려움

        • 비수치 데이터의 경우 유사도 정의가 어려움

        • 이상치에 민감

    

2. SVM(Support Vector Machine)

     - 지도학습 모델이며, 주로 회귀분류 문제 해결에 사용

     - 주어진 데이터 집합을 바탕으로 새로운 데이터가 어떤 범주에 속할 것인지를 판단하는

       비확률적 이진 선형 분류 모델을 생성

     - 좌측 그림처럼 분류를 할 수 있는 경계가 여러가지 있을 때, 가장 큰 폭을 가진 경계를 찾는다

     - 폭이 크다는 것은 그만큼 분류의 여유가 있다고 볼 수 있음(여유있게 분류하고 있음)

     - 경계(=초평면)에 가장 가까이에 붙어있는 최전방 데이터를 서포트 벡터(support vector)라고 함

     - 서포트 벡터와 초평면사이의 수직 거리를 마진이라고 함

     - SVM 모형은 선형 분류뿐만 아니라 비선형 분류에도 사용됨

     - 비선형 분류에서는 입력자료를 다차원 공간상으로 매핑(mapping)할 때 커널 트릭(kernel trick)을 사용

※ 경계(초평면)은 어떤 n차원의 공간보다 한 차원이 낮은 n-1차원의 하위공간(subspace)를 뜻함

 

출처 : https://specialscene.tistory.com/manage/newpost/?type=post&returnURL=%2Fmanage%2Fposts%2F

     - 장점

        • 분류와 예측에 모두 사용 가능

        • 신경망 기법에 비해 과적합 정도가 낮다

        • 예측의 정확도가 높다

        • 저차원과 고차원의 데이터에 모두 잘 작동

     - 단점

        • 데이터 전처리와 매개변수 설정에 따라 정확도가 달라질 수 있음

        • 예측이 어떻게 이루어지는지에 대한 이해와 모델에 대한 해석이 어려움

        • 대용량 데이터에 대한 모형 구축 시 속도가 느리며, 메모리 할당량이 크다