일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 분포
- DBSCAN
- 유사도
- 결정계수
- merge
- dict
- SPLIT
- 딕셔너리
- Sawzall
- list
- cross validation
- k-means
- 다중공선성
- 데이터프레임
- 가설검정
- pca
- 분산분석
- pig
- 하둡
- 밀도기반
- join
- Python
- distribution
- T-검정
- hive
- SQL on 하둡
- 교차검증
- DataFrame
- 병렬 쿼리 시스템
- p-value
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
군집분석의 타당성 지표 1. 실루엣(Silhouette) - 군집 내의 응집도와 군집 간 분리도를 이용한 지표 - -1 ~ 1사이의 값을 지님 - 1에 가까울 수록 → 완벽한 군집화가 이루어졌을 경우 - -1에 가까울 수록 → 군집화가 전혀 이루어지지 않은 경우 - a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 - b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 구했을 때의 최솟값 2. Dunn Index - 군집간 거리의 최소값 ÷ 군집간 거리의 최대값 - Dunn Index값이 클수록 군집이 잘 형성된 것
군집분석(Clustering) 1. 군집분석의 종류 - 계층적 군집분석 • 합병형 : 단일(최단)/완전(최장)/평균/중심/Ward 연결법 • 분리형 : 다이아나(DIANA)방법 - 분할적 군집분석 • 프로토타입 : k-means, 퍼지 군집 • 분포기반 : 혼합분포군집(Mixture Distribution Clustering) • 밀도기반 : 중심밀도 군집, 밀도기반 2. 밀도기반 군집분석 - DBSCAN(Density-Based Spatial Clustering of Application with Noise) • 대표적인 밀도기반 군집화 기법 • 군집화와 동시에 noise를 표시함으로써 데이터를 보다 정확하게 이해할 수 있음 - OPTICS • 군집화 구조 식별을 위해 부가적 순서를 생성 - DENCL..
재표본추출(Resampling) 1. 재표본추출(Resampling)이란? - 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식 - k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다 2. K-fold cross validation - 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법 - 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함 - 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용 3. 붓트랩(bootstrap) - 배깅과 부스팅과 연결..
분류분석(Classification) 1. 나이브 베이즈 분류(Naive Bayes Classification) - 베이즈 정리를 기본으로 하여 발전된 분류 방법 - 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정의 - 분모(=B가 일어날 확률)이 아래 식의 2번째 줄 처럼 나뉜다는게 핵심 - 분모(=B가 일어날 확률) = A가 일어났을 때 B가 일어날 확률 + A가 안일어났을 때 B가 일어날 확률 2. KNN(K-Nearest Neighbor Classification : K-최근접 이웃 알고리즘) - 새로운 데이터의 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스(범주)로 결정 - k-means에서 k는 군집갯수, knn에서 k는 근접 이웃의 갯수 - k값..
딥러닝(Deep Learning) 1. 딥러닝이란? - 딥러닝은 인공신경망에 기반을 둔 기계학습 - 여러 비선형 변환기법의 조합을 통해 많은 데이터로부터 특징들을 학습하는 기법 2. 종류 - 심층 신경망(DNN : Deep Neural Net) • • - 합성곱 신경망(CNN : Convolutional Neural Net) • • - 순환 신경망(RNN : Recurent Neural Net) • • - RBM(Restricted Boltzmann Machine) • • - DBN(Deep Belief Network) • •
변수선택(Feature Selection) 1. 언제사용? - 데이터의 독립변수(=x) 중 y값에 가장 관련성이 높은 변수(feature)만을 선정하는 방법 - 변수를 선택하면 모델의 정확도 향상 및 성능 향상을 기대해 볼 수 있음 2. 종류 - Filter Method • 각각의 변수들에 대해 통계적인 점수를 부여 → 이 점수를 바탕으로 변수의 순위를 매기고 변수 선택 ex) Chi squared test, information gain, correlation coefficient scores 등 - Wrapper Method • 변수간의 상호 작용을 감지 할 수 있도록 변수의 일부만을 모델링에 사용한 후 그 결과를 평가하는 작업을 반복하면서 변수를 선택해 나가는 방법 ex) Recursive feat..