일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- SQL on 하둡
- 밀도기반
- 분산분석
- DataFrame
- pig
- cross validation
- list
- 유사도
- distribution
- 병렬 쿼리 시스템
- 교차검증
- 가설검정
- join
- Sawzall
- DBSCAN
- pca
- 데이터프레임
- 딕셔너리
- dict
- hive
- p-value
- merge
- 다중공선성
- 하둡
- k-means
- T-검정
- SPLIT
- 분포
- Python
- 결정계수
- Today
- Total
목록데이터 분석 이론 (14)
one of a kind scene

용어 정리 및 어원 - Calculus 어원 : 어원적으로 라틴어 calculus 는 '작은 돌( small stone ), 조약돌( pebble )'을 의미하는데 이러한 돌을 계산을 할 때 사용해서 단어 calculate(계산하다)도 여기에서 유래됨 - 미적분 : Calculus - 미분 : Differential Calculus, Differentiation - (참고) 도함수 : Derivatives - 적분 : Integral Calculus, Integration 수학적 표기법 - 미분(D, d) : Differential의 D를 의미 - 적분(∫) : 영문 대문자 S자를 길게 늘여뜨린 모양. Sum의 S를 의미 미분이란? - 미분의 가장 정확한 표현은 순간변화율 이다. - 적분의 반대말이 미분..

평균의 종류(산술평균, 기하평균, 조화평균) (궁금증이 생기게 된 계기) - 모델의 성능을 평가하는 F1-score는 Precision과 Recall의 조화 평균을 사용하는 것을 보고 어떤 상황에 어떤 평균을 써야하는지에 대한 궁금증이 생김 1. 산술평균 • 일상 생활에서 가장 많이 사용하는 평균 • 각 요소의 총 합을 갯수로 나눈 것 2. 기하평균 • 각 요소를 곱한후 그 값에 루트를 씌운 값 • 일반적으로 성장률의 평균 등 상승률과 하락률을 활용한 계산에 유용하게 쓰임 • 예를 들어 1,000원의 주식이 10% 상승 후 10% 하락 했을 경우 산술적인 개념만 본다면 상승 +10% 하락 -10%로 ±10%이기 때문에 직관적으로 잘못 생각하여 가격 변동이 없다고 착각할 수 있음 • 하지만, 1,000원이..

K-fold cross validation 언제사용? - 모델이 잘 적합(fitting) 됐는지 확인할 때 1) 주로 over-fitting 여부를 확인할 때 사용 2) 데이터의 양이 충분하지 않을 때(=적을 때) 모델의 성능에 대한 신뢰도를 확보하기 위해 사용 k번 모두 모델의 성능이 일정하면 → 모델의 성능에 대한 신뢰도가 확보됨 - 모델의 성능 향상 1) k번 학습을 통해 만들어진 k개의 모델을 활용하여 앙상블(Ensemble)모델을 만든다면, 모델의 성능향상을 기대할 수 있음(예 : Bagging, Boosting) 2) k번 학습을 통해 만들어진 k개의 모델에서 나온 parameter들의 평균값으로 완벽하진 않지만 납득할 수 있는 parameter값을 찾을 수 있음 장점? - data set을 ..

Word2Vec의 장점 1) word2vec은 word를 다차원 벡터(vector)공간에 표현하여 벡터간의 유사도를 계산할 수 있게함 2) 앞뒤 단어를 고려하여 임베딩을 하기 때문에 단어의 문맥상의 의미까지 정량화된 벡터로 표현 가능 희소표현과 분산표현 1. 희소표현(sparse representation) : one-hot encoding은 희소표현 : 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현 이라고 함 : 원-핫 벡터는 희소 벡터(sparse vector) : 원-핫 벡터 단어간의 유사도를 계산할 수 없다는 단점이 있음 : 예를 들어서 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0,..
배치(Batch) 작업 vs 실시간(Live) 작업 - 배치 작업 : 일정량씩 나누어 처리하는 경우 배치작업 이라고 함 - 실시간 작업 : 실시간 바로 바로 반영되는 작업을 실시간 작업이라고 함 배치 작업과 실시간 작업은 반대되는 개념