일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 분포
- list
- cross validation
- 교차검증
- distribution
- 병렬 쿼리 시스템
- k-means
- 분산분석
- DBSCAN
- Sawzall
- 밀도기반
- SPLIT
- 결정계수
- 딕셔너리
- 유사도
- p-value
- dict
- 하둡
- merge
- 다중공선성
- Python
- pig
- pca
- hive
- DataFrame
- 가설검정
- SQL on 하둡
- join
- 데이터프레임
- T-검정
- Today
- Total
목록데이터 분석 이론 (14)
one of a kind scene

벡터화한 A, B의 유사도를 구하는 방법에는 유클리디안 유사도로 대표되는 거리 기반 유사도와 코사인 유사도로 대표되는 각도 기반 유사도가 있다 각도 기반 유사도와 거리 기반 유사도는 언제 사용해야 좋은지 알아보자 1) 거리 기반 유사도 위 그림 중 좌측 그림을 보면 거리 기반 유사도는 좌표를 기준으로 생각했을때 비슷한(혹은 가까운) 좌표에 있는 점들이 유사도가 높다고 측정됨 2) 각도 기반 유사도 위 그림 중 우측 그림을 보면 각도 기반 유사도는 좌표를 기준으로 생각했을때 x축과 (0, 0)에서 좌표까지 이르는 점선 주변에 있는 점들이 유사도가 높다고 측정됨 아래 그림은 벡터 간의 코사인 유사도 값을 설명해주고 있음 쉽게 설명하면, 평행(=기울기가 같은)을 이루고 방향이 같은 벡터간의 유사도가 가장 높음..

차원축소 알고리즘인 PCA알고리즘에 대해서 정리하고자 함 PCA를 왜 쓰는지 그리고 쓰면 머가 좋은지에 대해서 결론적인 얘기만 하고자함 흔히, PCA 알고리즘을 차원축소 알고리즘으로 알고있다. 그렇기 때문에 면접때 PCA를 왜 사용했냐고 물어봤을때, 단순히 차원을 축소하기 위해서 썻다고 답변하는 경우가 허다하다. (이 답변은 30점 정도 줄 수 있는 답변이다.) PCA를 사용하면 다중공선성 문제, 차원의 저주 문제를 해결할 수 있고, 차원을 축소해주기때문에 사람이 쉽게 관찰하고 이해할 수 있는 2차원으로 데이터들을 보여줄 수 있기때문에 사용했다고 답변해야 좋은 답변이라 할 수 있다. PCA는 어떤 알고리즘인가? PCA는 차원축소 알고리즘으로 생각하기보다는 기존 변수를 조합해 새로운 변수를 만드는 변수 추..