'ADP/이론' 카테고리의 글 목록 (4 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록ADP/이론 (34)

one of a kind scene

3장 비정형 데이터마이닝_사회연결망 분석(SNA)

사회연결망 분석(SNA : Social Network Analysis) 1. 사회연결망 분석이란? - 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론 - 사회연결망에서 개인 또는 집단이 하나의 노드(node)이며, 노드 사이에 존재하는 연결은 선(link 또는 edge)로 표현 2. 사회연결망 분석 분류 - 집합론적 방법 • 각 객체들 간의 관계를 쌍(pairs of elements)으로 표현 ex) (X1, X2) - 그래프 이론을 이용한 방법 • 객체를 점(노드 or 꼭지점)으로 표현하고, 연결은 두 점을 연결하는 선으로 표현 • 그래프 그림으로 그린다고 생각하면 됨 - 행렬을 이용한 방법 • 각 객체를 행렬의 행과 열에 대칭적으로..

ADP/이론 2019. 11. 13. 23:14

3장 비정형 데이터마이닝_텍스트 마이닝

텍스트 마이닝(Text Mining) 1. 텍스트 마이닝(Text Mining)이란? - 인터넷 데이터, 소셜미디어 데이터 등과 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관게를 발견하는 분석 기법 - 문서 요약, 문서 분류, 문서 군집, 특성 추출 2. Corpus란? - 텍스트 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계 - 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태 3. 텍스트 마이닝 패키지 - R : tm • tm_map(data, 처리) • 처리 종류 : as.PlainTextDocument, stripWhitespace, tolower, removewords - Python : nlp, Konlpy 4. Term-Docume..

ADP/이론 2019. 11. 13. 22:59

2장 정형 데이터마이닝_군집분석의 타당성 지표

군집분석의 타당성 지표 1. 실루엣(Silhouette) - 군집 내의 응집도와 군집 간 분리도를 이용한 지표 - -1 ~ 1사이의 값을 지님 - 1에 가까울 수록 → 완벽한 군집화가 이루어졌을 경우 - -1에 가까울 수록 → 군집화가 전혀 이루어지지 않은 경우 - a(i) : i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균 - b(i) : i번째 개체와 다른 군집에 속한 요소들 간 거리들의 평균을 군집마다 구했을 때의 최솟값 2. Dunn Index - 군집간 거리의 최소값 ÷ 군집간 거리의 최대값 - Dunn Index값이 클수록 군집이 잘 형성된 것

ADP/이론 2019. 11. 13. 22:49

2장 정형 데이터마이닝_군집분석

군집분석(Clustering) 1. 군집분석의 종류 - 계층적 군집분석 • 합병형 : 단일(최단)/완전(최장)/평균/중심/Ward 연결법 • 분리형 : 다이아나(DIANA)방법 - 분할적 군집분석 • 프로토타입 : k-means, 퍼지 군집 • 분포기반 : 혼합분포군집(Mixture Distribution Clustering) • 밀도기반 : 중심밀도 군집, 밀도기반 2. 밀도기반 군집분석 - DBSCAN(Density-Based Spatial Clustering of Application with Noise) • 대표적인 밀도기반 군집화 기법 • 군집화와 동시에 noise를 표시함으로써 데이터를 보다 정확하게 이해할 수 있음 - OPTICS • 군집화 구조 식별을 위해 부가적 순서를 생성 - DENCL..

ADP/이론 2019. 11. 13. 22:38

2장 정형 데이터마이닝_재표본추출(Resampling)

재표본추출(Resampling) 1. 재표본추출(Resampling)이란? - 표본을 반복해서 재추출하고, 재추출된 표본에 모형을 적합함으로써 생성된 분류기의 성능 측정에 대한 통계적 신뢰도를 높이는 방식 - k-fold cross validation, 붓스트랩, 홀드아웃(hold out) 방법 등이 있다 2. K-fold cross validation - 데이터를 k개의 집단으로 나눈 뒤 k-1개의 집단으로 분류기를 학습시키고, 나머지 1개의 집단으로 분류기의 성능을 테스트하는 방법 - 위 과정을 k번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함 - 최종적으로 k번의 테스트를 통해 얻은 MSE값들의 평균을 해당 모델의 MSE로 사용 3. 붓트랩(bootstrap) - 배깅과 부스팅과 연결..

ADP/이론 2019. 11. 13. 22:22

2장 정형 데이터마이닝_분류분석(Classification)

분류분석(Classification) 1. 나이브 베이즈 분류(Naive Bayes Classification) - 베이즈 정리를 기본으로 하여 발전된 분류 방법 - 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정의 - 분모(=B가 일어날 확률)이 아래 식의 2번째 줄 처럼 나뉜다는게 핵심 - 분모(=B가 일어날 확률) = A가 일어났을 때 B가 일어날 확률 + A가 안일어났을 때 B가 일어날 확률 2. KNN(K-Nearest Neighbor Classification : K-최근접 이웃 알고리즘) - 새로운 데이터의 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스(범주)로 결정 - k-means에서 k는 군집갯수, knn에서 k는 근접 이웃의 갯수 - k값..

ADP/이론 2019. 11. 13. 21:38

이전 Prev 1 2 3 4 5 6 Next 다음

목록ADP/이론 (34)

one of a kind scene

티스토리툴바