[ADP 대비] 5장_5절 정형 데이터 마이닝

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

one of a kind scene

[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석 본문

카테고리 없음

[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석

specialscene 2020. 2. 2. 23:49

군집분석

군집분석은 비교사 학습(Unsupervised learning)의 대표적인 방법론

- 계층적 군집분석 : 전통적 군집분석 방법, 군집의 갯수를 제일 나중에 선정

- 비계층적 군집분석 : 군집의 개수를 제일 먼저 선정

1. 계층적 군집 vs 분할적 군집 Linkage Method

(그림2) 계층적 군집 vs 분할적 군집 Linkage method 비교

(참고) *와드 연결법 : 군집내 편차들의 제곱합을 고려한 방법

2. 거리계산 방식

① 연속형 변수의 경우

구분	특징
유클리디안 거리(=L2 거리)	• 가장 많이 사용되는 일반적인 거리계산 방식 • 통계적 개념이내포되지않아 변수들의 산포 정도가 전혀 감안되지 않음
표준화 거리	• 통계적 개념이 내포된 거리계산 방식 • 변수를 표준편차(D)로 척도 변환한 후 유클리디안 거리를 계산하는 방식 • 표준편차로 척도 변환(=표준화)하여 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음
마할라노비스 거리	• 통계적 개념이 내포된 거리계산 방식 • 변수들의 산포를 고려하여 이를 표준화한 거리 • 두 벡터 사이의 거리를 산포를 의미하는 표본공분산(S)으로 나누어줌 • 군집에 대한 사전 지식 없이는 표본공분산 S를 계산할 수 없으므로 사용하기 곤란
체비셰프 거리	• d(x,y) = max\|x - y\|
맨하탄 거리(=L1 거리)	• 유클리디안 거리와 함께 가장 많이 사용되는 거리 • 두점(두 지점) 사이의 차이에 대한 절대값들의 합으로 구하는 거리
캔버라 거리	• 두점(두 지점) 사이의 차이에 대한 절대값을 두점의 합으로 나눈 값의 합으로 구하는 방식
민코우스키 거리	• 맨하탄 거리(L1 거리)와 유클리디안 거리(L2 거리)를 한번에 표현한 거리계산 방식

② 범주형 변수의 경우

• 자카드 거리, 자카드 계수

• 코사인 거리, 코사인 유사도

3. 계층적 군집분석의 군집화 단계

• 거리행렬을 기준으로 덴드로그램을 그린다.

• 덴드로그램의 최상단부터 세로축의 개수에 따라 가로선을 그어 군집의 개수를 선택한다.

• 각 객체들의 구성을 고려해서 적절한 군집수를 선정한다.

4. 비계층적 군집분석 중 K-means Clustering

① K-means Clustering 과정

• 원하는 군집의 갯수(=K)와 초기값(seed)들을 정해 seed 중심으로 군집을 형성

• 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

• 각 군집의 seed값을 다시 계산

• 모든 개체가 군집으로 할당될 때까지 위와같은 과정 계속 반복

② K-means Clustering의 특징

• 거리계산을 통해 군집화가 이루어지므로 연속형 변수에 활용 가능

• K개의 초기 중심값은 임의로 선택 가능, 가급적 멀리 떨어지는 것이 바람직

• 초기 중심값이 일렬(위아래, 좌우)로 선택되면 군집 혼합이 되지 않고 층으로 나뉠 수 있으니 주의

• 초기 중심값의 선정에 따라 결과가 달라짐 → 그래서 코딩할때도 seed값을 고정함

• 초기 중심으로부터의 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘 이므로 안정된 군집은 보장하나 최적이라는 보장은 없음

③ K-means Clustering의 장점 및 단점

장점	단점
• 알고리즘이 단순하며, 빠르게 수행되어 분석 방법 적용용이 • 계층적 군집분석에 비해 많은 양의 데이터를 다룰 수 있음 • 내부 구조에 대한 사전정보가 없어도 의미있는 자료구조를 찾을수 있음 • 다양한 형태의 데이터에 적용 가능	• 군집의 수, 가중치와 거리 정의가 어려움 • seed값에 따라 결과가 달라질 수 있음(항상 일정한 결과 X) • 사전에 주어진 목적이 없으므로 결과 해석이 어려움 • 잡음이나 이상값의 영향을 많이 받는다 • 볼록한 형태가 아닌 (non-convex) 군집이(예를 들어 U형태의 군집) 존재할 경우에는 성능이 떨어짐

one of a kind scene

[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석 본문

[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석

군집분석

티스토리툴바