일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- merge
- 데이터프레임
- 밀도기반
- 분포
- 다중공선성
- Python
- SQL on 하둡
- 결정계수
- distribution
- cross validation
- pca
- 분산분석
- 병렬 쿼리 시스템
- 유사도
- pig
- T-검정
- dict
- 딕셔너리
- k-means
- Sawzall
- DataFrame
- 하둡
- DBSCAN
- 가설검정
- list
- 교차검증
- hive
- p-value
- join
- SPLIT
- Today
- Total
목록ADP/이론 (34)
one of a kind scene
딥러닝(Deep Learning) 1. 딥러닝이란? - 딥러닝은 인공신경망에 기반을 둔 기계학습 - 여러 비선형 변환기법의 조합을 통해 많은 데이터로부터 특징들을 학습하는 기법 2. 종류 - 심층 신경망(DNN : Deep Neural Net) • • - 합성곱 신경망(CNN : Convolutional Neural Net) • • - 순환 신경망(RNN : Recurent Neural Net) • • - RBM(Restricted Boltzmann Machine) • • - DBN(Deep Belief Network) • •
변수선택(Feature Selection) 1. 언제사용? - 데이터의 독립변수(=x) 중 y값에 가장 관련성이 높은 변수(feature)만을 선정하는 방법 - 변수를 선택하면 모델의 정확도 향상 및 성능 향상을 기대해 볼 수 있음 2. 종류 - Filter Method • 각각의 변수들에 대해 통계적인 점수를 부여 → 이 점수를 바탕으로 변수의 순위를 매기고 변수 선택 ex) Chi squared test, information gain, correlation coefficient scores 등 - Wrapper Method • 변수간의 상호 작용을 감지 할 수 있도록 변수의 일부만을 모델링에 사용한 후 그 결과를 평가하는 작업을 반복하면서 변수를 선택해 나가는 방법 ex) Recursive feat..
더빈 왓슨(Durbin Watson) 검정 1. 언제 사용? - 오차항이 독립성을 만족하는지를 검정하기 위해 사용 - 오차항이 독립성 만족하는지 확인해야하는 이유는 회귀 분석의 주요 가정이기 때문 2. 판단 - 더빈 왓슨 통계량은 0 ~ 4사이의 값을 갖을 수 있음 - 0에 가까울수록 → 양의 상관관계 - 4에 가까울수록 → 음의 상관관계 - 2에 가까울수록 → 오차항의 자기상관이 없음
1. 회귀분석의 영향력 진단이란? - 회귀분석의 안전성을 평가하는 통계적인 방법 2. 영향점이란? - 이상치와는 다른 개념으로 회귀직선의 기울기에 영향을 크게 주는 점 - 회귀식에 나쁜 영향을 주는 점이라고 기억해두자 3. 영향력 진단 방법 1) Cook's Distance(쿡의 거리) - i번째 관측치 포함/미포함에 따른 적합치 사이의 거리계산 - 쿡의 거리가 기준값인 1보다 클 경우 영향치로 간주 2) DFBEATAS - i번째 관측치가 DFBEATAS값이 기준값인 2 혹은 2/sqrt(n)보다 크면 영향치로 간주 3) DFFITS - i번째 관측치 제외 시 종속변수 예측치의 변화정도를 측정한 값 - 기준값보다 클수록 영향치일 가능성이 높음 4) Leverage H - 관측치가 다른 관측치 집단으로부..
정규화 선형회귀(Regularized Linear Regression) 1. 라쏘회귀 - 가중치들의 @절대값의 합@을 최소화하는 것을 제약조건으로 추가 - 규제 방식은 L1 Penalty 라고 함 - 중요하지 않은 가중치는 0이 될 수 있음(=가중치의 모든 원소가 0에 가까워지는 것을 원함) 2. 릿지회귀 - 가중치들의 @제곱합@을 최소하하는 것을 제약 조건으로 추가 - 규제 방식 L2 Penalty 라고 함 - 가중치는 0에 가까워질 뿐 0이되지 않는다 - 람다가 커지면 → 가중치 값은 작아지고 정규화 정도는 커짐 람다가 작아지면 → 가중치 값은 커지고 정규화 정도는 작아짐 3. 엘라스틱 넷 - 릿지회귀와 라쏘회귀를 절충한 모델 - 가중치 절대값의 합과 제곱합을 동시에 제약 조건으로 추가 - 람다1과 ..
중심극한정리(CLT : Central Limit Theorem) sample size(=표본그룹 하나 당 표본의 갯수)가 30개는 되야 표본들의 평균이 정규분포를 따름 ※ 잘못된 이해 모집단 1000개에서 30개를 뽑으면 이 값들은 정규분포를 이룰 것이다. 위와 같이 이해하는 경우가 있으니 주의!!! 표본의 평균이 정규분포를 따른다는 뜻은 아래와 같음 또한, 모집단은 정규분포를 안따라도 됨 아래와 같이 30개짜리 표본을 n번 뽑았을때 표본1 : 30개 ☞ 여기서 표본평균1 표본2 : 30개 ☞ 여기서 표본평균2 . . . . 표본n : 30개 ☞ 여기서 표본평균n 이러한 표본의 갯수(n이 아니라 sample갯수 30개)가 30개는 되야 표본평균들이 정규분포를 따른다 중심극한정리 언제 유용? 모평균 추정에..