일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 유사도
- merge
- 분산분석
- 교차검증
- dict
- list
- pca
- pig
- Sawzall
- hive
- DataFrame
- 다중공선성
- SPLIT
- 병렬 쿼리 시스템
- 데이터프레임
- join
- distribution
- 분포
- SQL on 하둡
- 딕셔너리
- DBSCAN
- 결정계수
- 가설검정
- 하둡
- cross validation
- p-value
- k-means
- 밀도기반
- Python
- T-검정
- Today
- Total
목록ADP (35)
one of a kind scene
ETL(Extraction Transforamtion Load / 추출, 변형, 적재) 1. ETL이란? - ETL은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어 - 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS), 데이터 웨어하우스(DW), 데이터마트(DW) 등에 데이터를 적재하는 작업의 핵심 구성요소 - ETL은 대용량 데이터에 대한 일괄(Batch)작업(일괄작업 = 실시간의 반대개념)을 통해 정형 데이터를 통합 - 그렇다면, 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술은? → CDC와 EAI 2. ETL의 기능? - Extraction(추출) : 다양한 데이터 원천(Source)에서 부터 데이터 획득 - Transformation(변형)..
사회연결망 분석(SNA : Social Network Analysis) 1. 사회연결망 분석이란? - 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론 - 사회연결망에서 개인 또는 집단이 하나의 노드(node)이며, 노드 사이에 존재하는 연결은 선(link 또는 edge)로 표현 2. 사회연결망 분석 분류 - 집합론적 방법 • 각 객체들 간의 관계를 쌍(pairs of elements)으로 표현 ex) (X1, X2) - 그래프 이론을 이용한 방법 • 객체를 점(노드 or 꼭지점)으로 표현하고, 연결은 두 점을 연결하는 선으로 표현 • 그래프 그림으로 그린다고 생각하면 됨 - 행렬을 이용한 방법 • 각 객체를 행렬의 행과 열에 대칭적으로..
텍스트 마이닝(Text Mining) 1. 텍스트 마이닝(Text Mining)이란? - 인터넷 데이터, 소셜미디어 데이터 등과 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관게를 발견하는 분석 기법 - 문서 요약, 문서 분류, 문서 군집, 특성 추출 2. Corpus란? - 텍스트 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계 - 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태 3. 텍스트 마이닝 패키지 - R : tm • tm_map(data, 처리) • 처리 종류 : as.PlainTextDocument, stripWhitespace, tolower, removewords - Python : nlp, Konlpy 4. Term-Docume..
군집분석의 타당성 지표 1. 실루엣(Silhouette) - 군집 내의 응집도와 군집 간 분리도를 이용한 지표 - -1 ~ 1사이의 값을 지님 - 1에 가까울 수록 → 완벽한 군집화가 이루어졌을 경우 - -1에 가까울 수록 → 군집화가 전혀 이루어지지 않은 경우 - a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 - b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 구했을 때의 최솟값 2. Dunn Index - 군집간 거리의 최소값 ÷ 군집간 거리의 최대값 - Dunn Index값이 클수록 군집이 잘 형성된 것
군집분석(Clustering) 1. 군집분석의 종류 - 계층적 군집분석 • 합병형 : 단일(최단)/완전(최장)/평균/중심/Ward 연결법 • 분리형 : 다이아나(DIANA)방법 - 분할적 군집분석 • 프로토타입 : k-means, 퍼지 군집 • 분포기반 : 혼합분포군집(Mixture Distribution Clustering) • 밀도기반 : 중심밀도 군집, 밀도기반 2. 밀도기반 군집분석 - DBSCAN(Density-Based Spatial Clustering of Application with Noise) • 대표적인 밀도기반 군집화 기법 • 군집화와 동시에 noise를 표시함으로써 데이터를 보다 정확하게 이해할 수 있음 - OPTICS • 군집화 구조 식별을 위해 부가적 순서를 생성 - DENCL..
재표본추출(Resampling) 1. 재표본추출(Resampling)이란? - 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식 - k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다 2. K-fold cross validation - 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법 - 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함 - 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용 3. 붓트랩(bootstrap) - 배깅과 부스팅과 연결..