one of a kind scene

[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석 본문

카테고리 없음

[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석

specialscene 2020. 2. 2. 23:49

군집분석

군집분석은 비교사 학습(Unsupervised learning)의 대표적인 방법론

- 계층적 군집분석 : 전통적 군집분석 방법, 군집의 갯수를 제일 나중에 선정

- 비계층적 군집분석 : 군집의 개수를 제일 먼저 선정

(그림1) 계층적 군집 vs 분할적 군집

 

1. 계층적 군집 vs 분할적 군집 Linkage Method

(그림2) 계층적 군집 vs 분할적 군집 Linkage method 비교

(참고) *와드 연결법 : 군집내 편차들의 제곱합을 고려한 방법

 

2. 거리계산 방식

     ① 연속형 변수의 경우

구분 특징
유클리디안 거리(=L2 거리)  가장 많이 사용되는 일반적인 거리계산 방식
• 통계적 개념이내포되지않아 변수들의 산포 정도가 전혀 감안되지 않음
표준화 거리 • 통계적 개념이 내포된 거리계산 방식
• 변수를 표준편차(D)로 척도 변환한 후 유클리디안 거리를 계산하는 방식
• 표준편차로 척도 변환(=표준화)하여 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음
마할라노비스 거리 • 통계적 개념이 내포된 거리계산 방식
• 변수들의 산포를 고려하여 이를 표준화한 거리
• 두 벡터 사이의 거리를 산포를 의미하는 표본공분산(S)으로 나누어줌
• 군집에 대한 사전 지식 없이는 표본공분산 S를 계산할 수 없으므로 사용하기 곤란
체비셰프 거리 • d(x,y) = max|x - y|
맨하탄 거리(=L1 거리) • 유클리디안 거리와 함께 가장 많이 사용되는 거리
• 두점(두 지점) 사이의 차이에 대한 절대값들의 합으로 구하는 거리
캔버라 거리 두점(두 지점) 사이의 차이에 대한 절대값을 두점의 합으로 나눈 값의 합으로 구하는 방식
민코우스키 거리 • 맨하탄 거리(L1 거리)와 유클리디안 거리(L2 거리)를 한번에 표현한 거리계산 방식

(그림3) 주요 거리계산 방식 수식

 

     ② 범주형 변수의 경우

          • 자카드 거리, 자카드 계수

          • 코사인 거리, 코사인 유사도

 

3. 계층적 군집분석의 군집화 단계

     • 거리행렬을 기준으로 덴드로그램을 그린다.

     • 덴드로그램의 최상단부터 세로축의 개수에 따라 가로선을 그어 군집의 개수를 선택한다.

     • 각 객체들의 구성을 고려해서 적절한 군집수를 선정한다.

 

4. 비계층적 군집분석 중 K-means Clustering

     ① K-means Clustering 과정

          • 원하는 군집의 갯수(=K)와 초기값(seed)들을 정해 seed 중심으로 군집을 형성

          • 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

          • 각 군집의 seed값을 다시 계산

          • 모든 개체가 군집으로 할당될 때까지 위와같은 과정 계속 반복

 

     ② K-means Clustering의 특징

          • 거리계산을 통해 군집화가 이루어지므로 연속형 변수에 활용 가능

          • K개의 초기 중심값은 임의로 선택 가능, 가급적 멀리 떨어지는 것이 바람직

          • 초기 중심값이 일렬(위아래, 좌우)로 선택되면 군집 혼합이 되지 않고 층으로 나뉠 수 있으니 주의

          • 초기 중심값의 선정에 따라 결과가 달라짐 → 그래서 코딩할때도 seed값을 고정함

          • 초기 중심으로부터의 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘 이므로 안정된 군집은 보장하나 최적이라는 보장은 없음

 

     ③ K-means Clustering의 장점 및 단점

장점 단점
• 알고리즘이 단순하며, 빠르게 수행되어 분석 방법 적용용이
• 계층적 군집분석에 비해 많은 양의 데이터를 다룰 수 있음
• 내부 구조에 대한 사전정보가 없어도 의미있는 자료구조를 찾을수 있음
• 다양한 형태의 데이터에 적용 가능
• 군집의 수, 가중치와 거리 정의가 어려움
• seed값에 따라 결과가 달라질 수 있음(항상 일정한 결과 X)
• 사전에 주어진 목적이 없으므로 결과 해석이 어려움
• 잡음이나 이상값의 영향을 많이 받는다
• 볼록한 형태가 아닌 (non-convex) 군집이(예를 들어 U형태의 군집) 존재할 경우에는 성능이 떨어짐