Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Python
- cross validation
- 딕셔너리
- 결정계수
- DBSCAN
- 유사도
- Sawzall
- DataFrame
- 데이터프레임
- SQL on 하둡
- p-value
- pca
- 분포
- k-means
- join
- 가설검정
- SPLIT
- T-검정
- distribution
- 분산분석
- merge
- hive
- 밀도기반
- dict
- 하둡
- list
- pig
- 병렬 쿼리 시스템
- 교차검증
- 다중공선성
Archives
- Today
- Total
one of a kind scene
[ADP 대비] 5장_5절 정형 데이터 마이닝_군집분석 본문
군집분석
군집분석은 비교사 학습(Unsupervised learning)의 대표적인 방법론
- 계층적 군집분석 : 전통적 군집분석 방법, 군집의 갯수를 제일 나중에 선정
- 비계층적 군집분석 : 군집의 개수를 제일 먼저 선정
1. 계층적 군집 vs 분할적 군집 Linkage Method
(참고) *와드 연결법 : 군집내 편차들의 제곱합을 고려한 방법
2. 거리계산 방식
① 연속형 변수의 경우
구분 | 특징 |
유클리디안 거리(=L2 거리) | • 가장 많이 사용되는 일반적인 거리계산 방식 • 통계적 개념이내포되지않아 변수들의 산포 정도가 전혀 감안되지 않음 |
표준화 거리 | • 통계적 개념이 내포된 거리계산 방식 • 변수를 표준편차(D)로 척도 변환한 후 유클리디안 거리를 계산하는 방식 • 표준편차로 척도 변환(=표준화)하여 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음 |
마할라노비스 거리 | • 통계적 개념이 내포된 거리계산 방식 • 변수들의 산포를 고려하여 이를 표준화한 거리 • 두 벡터 사이의 거리를 산포를 의미하는 표본공분산(S)으로 나누어줌 • 군집에 대한 사전 지식 없이는 표본공분산 S를 계산할 수 없으므로 사용하기 곤란 |
체비셰프 거리 | • d(x,y) = max|x - y| |
맨하탄 거리(=L1 거리) | • 유클리디안 거리와 함께 가장 많이 사용되는 거리 • 두점(두 지점) 사이의 차이에 대한 절대값들의 합으로 구하는 거리 |
캔버라 거리 | • 두점(두 지점) 사이의 차이에 대한 절대값을 두점의 합으로 나눈 값의 합으로 구하는 방식 |
민코우스키 거리 | • 맨하탄 거리(L1 거리)와 유클리디안 거리(L2 거리)를 한번에 표현한 거리계산 방식 |
② 범주형 변수의 경우
• 자카드 거리, 자카드 계수
• 코사인 거리, 코사인 유사도
3. 계층적 군집분석의 군집화 단계
• 거리행렬을 기준으로 덴드로그램을 그린다.
• 덴드로그램의 최상단부터 세로축의 개수에 따라 가로선을 그어 군집의 개수를 선택한다.
• 각 객체들의 구성을 고려해서 적절한 군집수를 선정한다.
4. 비계층적 군집분석 중 K-means Clustering
① K-means Clustering 과정
• 원하는 군집의 갯수(=K)와 초기값(seed)들을 정해 seed 중심으로 군집을 형성
• 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
• 각 군집의 seed값을 다시 계산
• 모든 개체가 군집으로 할당될 때까지 위와같은 과정 계속 반복
② K-means Clustering의 특징