[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석

Notice

Recent Posts

Tags more

Archives

관리 메뉴

one of a kind scene

카테고리 없음

specialscene 2020. 2. 2. 23:55

GMM 알고리즘이 혼합 분포 군집에 해당

1. 혼합 분포 군집이란?

• 모형 기반(model-based)의 군집 방법

• 데이터가 k개의 모수적 모형(흔히 정규분포 or 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법

• k개의 모수적 모형은 각각 군집을 뜻함

• 즉, 데이터들은 k개의 모수적 모형에서 왔고, 각각의 데이터들이 k개의 모형에 속할 확률을 구해서 군집화하는 방식

• k개의 모형들을 혼합하면 데이터들의 분포 모양이 나온다고 생각하자 → 다봉형 형태를 생각해보자

• 따라서, 아래와 그림과 같이 다양한 분포로부터 나온 데이터들을 클러스터링 할 수 있음

2. EM(Expectation-Maximization) 알고리즘의 진행 과정

• 각 자료에 대해 Z의 조건부분포(어느 집단에 속할지에 대한)로부터 조건부 기댓값을 구할 수 있음(E-단계)

• 관측변수 X와 잠재변수 Z를 포함하는 (X, Z)에 대한 로그-가능도함수(이를 보정된(augmented) 로그-가능도함수라 함)에 Z 대신 상수값인 Z의 조건부 기댓값을 대입하면, 로그-가능도함수를 최대로 하는 모수를 쉽게 찾을 수 있다.(M-단계)

• 갱신된 모수 추정치에 대해 위 과정을 반복한다면 수렴하는 값을 얻게되고, 이는 최대 가능도 추정치로 사용될 수 있다.

• E-단계 : 잠재변수 Z의 기대치 계산

• M-단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정

(잠재변수 Z가 먼지에 대한 공부가 더 필요함...)

3. 혼합 분포 군집모형의 특징

• K-평균군집의 절차와 유사하지만, 확률분포를 도입하여 군집을 수행

• 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있다

• EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있다

• 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려울 수 있다

• K-평균군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요