일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 유사도
- 분포
- 가설검정
- Python
- DBSCAN
- join
- pca
- 밀도기반
- p-value
- DataFrame
- 데이터프레임
- k-means
- dict
- list
- 결정계수
- Sawzall
- 분산분석
- merge
- pig
- 딕셔너리
- cross validation
- hive
- distribution
- 다중공선성
- SQL on 하둡
- 병렬 쿼리 시스템
- 교차검증
- SPLIT
- 하둡
- T-검정
- Today
- Total
목록데이터 분석 이론/데이터 사이언스 (6)
one of a kind scene

K-fold cross validation 언제사용? - 모델이 잘 적합(fitting) 됐는지 확인할 때 1) 주로 over-fitting 여부를 확인할 때 사용 2) 데이터의 양이 충분하지 않을 때(=적을 때) 모델의 성능에 대한 신뢰도를 확보하기 위해 사용 k번 모두 모델의 성능이 일정하면 → 모델의 성능에 대한 신뢰도가 확보됨 - 모델의 성능 향상 1) k번 학습을 통해 만들어진 k개의 모델을 활용하여 앙상블(Ensemble)모델을 만든다면, 모델의 성능향상을 기대할 수 있음(예 : Bagging, Boosting) 2) k번 학습을 통해 만들어진 k개의 모델에서 나온 parameter들의 평균값으로 완벽하진 않지만 납득할 수 있는 parameter값을 찾을 수 있음 장점? - data set을 ..

Word2Vec의 장점 1) word2vec은 word를 다차원 벡터(vector)공간에 표현하여 벡터간의 유사도를 계산할 수 있게함 2) 앞뒤 단어를 고려하여 임베딩을 하기 때문에 단어의 문맥상의 의미까지 정량화된 벡터로 표현 가능 희소표현과 분산표현 1. 희소표현(sparse representation) : one-hot encoding은 희소표현 : 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현 이라고 함 : 원-핫 벡터는 희소 벡터(sparse vector) : 원-핫 벡터 단어간의 유사도를 계산할 수 없다는 단점이 있음 : 예를 들어서 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0,..
배치(Batch) 작업 vs 실시간(Live) 작업 - 배치 작업 : 일정량씩 나누어 처리하는 경우 배치작업 이라고 함 - 실시간 작업 : 실시간 바로 바로 반영되는 작업을 실시간 작업이라고 함 배치 작업과 실시간 작업은 반대되는 개념
regression에서 모델링한 X의 범위 내에서 새로운 X*값에 대한 Y값을 알고자하는 것을 Prediction이라 하고, 모델링하는 X의 범위를 벗어난 새로운 X의 값에 대한 Y값을 알고자 하는 것을 Forecast 라고 얘기함 (추가) predcition을 분석 목적으로 본다면 prediction할 때 사용되는게 regression임

벡터화한 A, B의 유사도를 구하는 방법에는 유클리디안 유사도로 대표되는 거리 기반 유사도와 코사인 유사도로 대표되는 각도 기반 유사도가 있다 각도 기반 유사도와 거리 기반 유사도는 언제 사용해야 좋은지 알아보자 1) 거리 기반 유사도 위 그림 중 좌측 그림을 보면 거리 기반 유사도는 좌표를 기준으로 생각했을때 비슷한(혹은 가까운) 좌표에 있는 점들이 유사도가 높다고 측정됨 2) 각도 기반 유사도 위 그림 중 우측 그림을 보면 각도 기반 유사도는 좌표를 기준으로 생각했을때 x축과 (0, 0)에서 좌표까지 이르는 점선 주변에 있는 점들이 유사도가 높다고 측정됨 아래 그림은 벡터 간의 코사인 유사도 값을 설명해주고 있음 쉽게 설명하면, 평행(=기울기가 같은)을 이루고 방향이 같은 벡터간의 유사도가 가장 높음..

차원축소 알고리즘인 PCA알고리즘에 대해서 정리하고자 함 PCA를 왜 쓰는지 그리고 쓰면 머가 좋은지에 대해서 결론적인 얘기만 하고자함 흔히, PCA 알고리즘을 차원축소 알고리즘으로 알고있다. 그렇기 때문에 면접때 PCA를 왜 사용했냐고 물어봤을때, 단순히 차원을 축소하기 위해서 썻다고 답변하는 경우가 허다하다. (이 답변은 30점 정도 줄 수 있는 답변이다.) PCA를 사용하면 다중공선성 문제, 차원의 저주 문제를 해결할 수 있고, 차원을 축소해주기때문에 사람이 쉽게 관찰하고 이해할 수 있는 2차원으로 데이터들을 보여줄 수 있기때문에 사용했다고 답변해야 좋은 답변이라 할 수 있다. PCA는 어떤 알고리즘인가? PCA는 차원축소 알고리즘으로 생각하기보다는 기존 변수를 조합해 새로운 변수를 만드는 변수 추..