일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 분산분석
- 교차검증
- SPLIT
- p-value
- Sawzall
- T-검정
- 병렬 쿼리 시스템
- dict
- DBSCAN
- 딕셔너리
- join
- 밀도기반
- 하둡
- distribution
- 분포
- k-means
- hive
- cross validation
- merge
- 가설검정
- 데이터프레임
- list
- 결정계수
- pca
- SQL on 하둡
- Python
- 다중공선성
- 유사도
- pig
- DataFrame
- Today
- Total
목록ADP/이론 (34)
one of a kind scene
사회연결망 분석(SNA : Social Network Analysis) 1. 사회연결망 분석이란? - 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론 - 사회연결망에서 개인 또는 집단이 하나의 노드(node)이며, 노드 사이에 존재하는 연결은 선(link 또는 edge)로 표현 2. 사회연결망 분석 분류 - 집합론적 방법 • 각 객체들 간의 관계를 쌍(pairs of elements)으로 표현 ex) (X1, X2) - 그래프 이론을 이용한 방법 • 객체를 점(노드 or 꼭지점)으로 표현하고, 연결은 두 점을 연결하는 선으로 표현 • 그래프 그림으로 그린다고 생각하면 됨 - 행렬을 이용한 방법 • 각 객체를 행렬의 행과 열에 대칭적으로..
텍스트 마이닝(Text Mining) 1. 텍스트 마이닝(Text Mining)이란? - 인터넷 데이터, 소셜미디어 데이터 등과 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관게를 발견하는 분석 기법 - 문서 요약, 문서 분류, 문서 군집, 특성 추출 2. Corpus란? - 텍스트 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계 - 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태 3. 텍스트 마이닝 패키지 - R : tm • tm_map(data, 처리) • 처리 종류 : as.PlainTextDocument, stripWhitespace, tolower, removewords - Python : nlp, Konlpy 4. Term-Docume..
군집분석의 타당성 지표 1. 실루엣(Silhouette) - 군집 내의 응집도와 군집 간 분리도를 이용한 지표 - -1 ~ 1사이의 값을 지님 - 1에 가까울 수록 → 완벽한 군집화가 이루어졌을 경우 - -1에 가까울 수록 → 군집화가 전혀 이루어지지 않은 경우 - a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 - b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 구했을 때의 최솟값 2. Dunn Index - 군집간 거리의 최소값 ÷ 군집간 거리의 최대값 - Dunn Index값이 클수록 군집이 잘 형성된 것
군집분석(Clustering) 1. 군집분석의 종류 - 계층적 군집분석 • 합병형 : 단일(최단)/완전(최장)/평균/중심/Ward 연결법 • 분리형 : 다이아나(DIANA)방법 - 분할적 군집분석 • 프로토타입 : k-means, 퍼지 군집 • 분포기반 : 혼합분포군집(Mixture Distribution Clustering) • 밀도기반 : 중심밀도 군집, 밀도기반 2. 밀도기반 군집분석 - DBSCAN(Density-Based Spatial Clustering of Application with Noise) • 대표적인 밀도기반 군집화 기법 • 군집화와 동시에 noise를 표시함으로써 데이터를 보다 정확하게 이해할 수 있음 - OPTICS • 군집화 구조 식별을 위해 부가적 순서를 생성 - DENCL..
재표본추출(Resampling) 1. 재표본추출(Resampling)이란? - 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식 - k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다 2. K-fold cross validation - 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법 - 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함 - 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용 3. 붓트랩(bootstrap) - 배깅과 부스팅과 연결..
분류분석(Classification) 1. 나이브 베이즈 분류(Naive Bayes Classification) - 베이즈 정리를 기본으로 하여 발전된 분류 방법 - 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정의 - 분모(=B가 일어날 확률)이 아래 식의 2번째 줄 처럼 나뉜다는게 핵심 - 분모(=B가 일어날 확률) = A가 일어났을 때 B가 일어날 확률 + A가 안일어났을 때 B가 일어날 확률 2. KNN(K-Nearest Neighbor Classification : K-최근접 이웃 알고리즘) - 새로운 데이터의 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스(범주)로 결정 - k-means에서 k는 군집갯수, knn에서 k는 근접 이웃의 갯수 - k값..