일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- join
- pca
- 유사도
- 밀도기반
- DBSCAN
- SQL on 하둡
- Sawzall
- Python
- 분포
- distribution
- 데이터프레임
- 다중공선성
- list
- 딕셔너리
- 교차검증
- DataFrame
- cross validation
- 결정계수
- p-value
- T-검정
- pig
- merge
- 병렬 쿼리 시스템
- SPLIT
- 가설검정
- 하둡
- dict
- hive
- 분산분석
- k-means
- Today
- Total
목록유사도 (2)
one of a kind scene

Word2Vec의 장점 1) word2vec은 word를 다차원 벡터(vector)공간에 표현하여 벡터간의 유사도를 계산할 수 있게함 2) 앞뒤 단어를 고려하여 임베딩을 하기 때문에 단어의 문맥상의 의미까지 정량화된 벡터로 표현 가능 희소표현과 분산표현 1. 희소표현(sparse representation) : one-hot encoding은 희소표현 : 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현 이라고 함 : 원-핫 벡터는 희소 벡터(sparse vector) : 원-핫 벡터 단어간의 유사도를 계산할 수 없다는 단점이 있음 : 예를 들어서 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0,..

벡터화한 A, B의 유사도를 구하는 방법에는 유클리디안 유사도로 대표되는 거리 기반 유사도와 코사인 유사도로 대표되는 각도 기반 유사도가 있다 각도 기반 유사도와 거리 기반 유사도는 언제 사용해야 좋은지 알아보자 1) 거리 기반 유사도 위 그림 중 좌측 그림을 보면 거리 기반 유사도는 좌표를 기준으로 생각했을때 비슷한(혹은 가까운) 좌표에 있는 점들이 유사도가 높다고 측정됨 2) 각도 기반 유사도 위 그림 중 우측 그림을 보면 각도 기반 유사도는 좌표를 기준으로 생각했을때 x축과 (0, 0)에서 좌표까지 이르는 점선 주변에 있는 점들이 유사도가 높다고 측정됨 아래 그림은 벡터 간의 코사인 유사도 값을 설명해주고 있음 쉽게 설명하면, 평행(=기울기가 같은)을 이루고 방향이 같은 벡터간의 유사도가 가장 높음..