일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- join
- pca
- 분산분석
- 밀도기반
- dict
- 유사도
- 병렬 쿼리 시스템
- distribution
- 하둡
- 다중공선성
- 데이터프레임
- Python
- DataFrame
- Sawzall
- 분포
- 가설검정
- merge
- hive
- SPLIT
- 딕셔너리
- SQL on 하둡
- cross validation
- list
- 교차검증
- pig
- k-means
- 결정계수
- T-검정
- p-value
- DBSCAN
- Today
- Total
one of a kind scene
[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석_ 혼합 분포 군집 본문
군집분석 혼합 분포 군집(mixture distribution clustering)
GMM 알고리즘이 혼합 분포 군집에 해당
1. 혼합 분포 군집이란?
• 모형 기반(model-based)의 군집 방법
• 데이터가 k개의 모수적 모형(흔히 정규분포 or 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법
• k개의 모수적 모형은 각각 군집을 뜻함
• 즉, 데이터들은 k개의 모수적 모형에서 왔고, 각각의 데이터들이 k개의 모형에 속할 확률을 구해서 군집화하는 방식
• k개의 모형들을 혼합하면 데이터들의 분포 모양이 나온다고 생각하자 → 다봉형 형태를 생각해보자
• 따라서, 아래와 그림과 같이 다양한 분포로부터 나온 데이터들을 클러스터링 할 수 있음
2. EM(Expectation-Maximization) 알고리즘의 진행 과정
• 각 자료에 대해 Z의 조건부분포(어느 집단에 속할지에 대한)로부터 조건부 기댓값을 구할 수 있음(E-단계)
• 관측변수 X와 잠재변수 Z를 포함하는 (X, Z)에 대한 로그-가능도함수(이를 보정된(augmented) 로그-가능도함수라 함)에 Z 대신 상수값인 Z의 조건부 기댓값을 대입하면, 로그-가능도함수를 최대로 하는 모수를 쉽게 찾을 수 있다.(M-단계)
• 갱신된 모수 추정치에 대해 위 과정을 반복한다면 수렴하는 값을 얻게되고, 이는 최대 가능도 추정치로 사용될 수 있다.
• E-단계 : 잠재변수 Z의 기대치 계산
• M-단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정
(잠재변수 Z가 먼지에 대한 공부가 더 필요함...)
3. 혼합 분포 군집모형의 특징
• K-평균군집의 절차와 유사하지만, 확률분포를 도입하여 군집을 수행
• 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있다
• EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있다
• 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려울 수 있다
• K-평균군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요