일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- join
- 가설검정
- merge
- 데이터프레임
- k-means
- pig
- 하둡
- 밀도기반
- DBSCAN
- 교차검증
- SPLIT
- p-value
- cross validation
- 분산분석
- hive
- 다중공선성
- 분포
- T-검정
- Python
- list
- distribution
- Sawzall
- 병렬 쿼리 시스템
- dict
- 결정계수
- pca
- 유사도
- DataFrame
- 딕셔너리
- SQL on 하둡
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
CDC(Change Data Capture) 1. CDC란? - CDC(Change Data Capture)는 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조 - 실시간 또는 근접 실시간 데이터 통합을 기반으로 하는 데이터 웨어하우스 및 기타 데이터 저장소 구축에 폭 넓게 활용 2. CDC 구현 기법 ① Time Stamp on Rows • 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 칼럼 존재 • 더 최근의 타임스탬프 값을 갖는 레코드가 발견되면 변경된 것으로 식별 ② Version Numbers on Rows • 테이블 내 버전을 기록하는 칼럼 존재 • 더 최근의(=더 높은) 버전을 보유한 레코드가 발견되면 변경된 것..
데이터 웨어하우스(DW) 1. 데이터 웨어하우스란? - ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 2. 데이터 웨어하우스의 특징 ① 주제 중심성(Subject Oriented) • 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화 • 최종사용자(end user)도 이해하기 쉬운 형태 ② 영속성•비휘발성(Non Volatile) • 읽기 전용(Read Only)의 속성을 가지며, 삭제되지 않는다 ③ 통합성(Integrated) • 데이터 웨어하우스의 데이터는 기관 및 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본 ④ 시계열성(Time Variant) • 운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 ..
ODS(Operational Data Store : 운영 데이터 스토어) 1. ODS이란? - ODS는 데이터에 대한 추가 작업을 위해 다양한 데이터 원천(Source)들로부터 데이터를 추출 및 통합한 데이터베이스 - ODS 내의 데이터는 향후 비즈니스 지원을 위해 타 정보 시스템으로 이관되거나, 다양한 보고서 생성을 위해 데이터 웨어하우스로 이관된다. - ODS는 일반적으로 실시간(Real Time) 또는 실시간 근접(Near Real Time) 트랜잭션 데이터 혹은 가격 등의 원자성(개별성)을 지닌 하위 수준 데이터들을 저장하기 위해 설계 2. ODS 구성 단계 - interface 단계 • 다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계 - 데이터 Staging 단계 • 데이터 원천..
ETL(Extraction Transforamtion Load / 추출, 변형, 적재) 1. ETL이란? - ETL은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어 - 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS), 데이터 웨어하우스(DW), 데이터마트(DW) 등에 데이터를 적재하는 작업의 핵심 구성요소 - ETL은 대용량 데이터에 대한 일괄(Batch)작업(일괄작업 = 실시간의 반대개념)을 통해 정형 데이터를 통합 - 그렇다면, 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술은? → CDC와 EAI 2. ETL의 기능? - Extraction(추출) : 다양한 데이터 원천(Source)에서 부터 데이터 획득 - Transformation(변형)..
사회연결망 분석(SNA : Social Network Analysis) 1. 사회연결망 분석이란? - 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론 - 사회연결망에서 개인 또는 집단이 하나의 노드(node)이며, 노드 사이에 존재하는 연결은 선(link 또는 edge)로 표현 2. 사회연결망 분석 분류 - 집합론적 방법 • 각 객체들 간의 관계를 쌍(pairs of elements)으로 표현 ex) (X1, X2) - 그래프 이론을 이용한 방법 • 객체를 점(노드 or 꼭지점)으로 표현하고, 연결은 두 점을 연결하는 선으로 표현 • 그래프 그림으로 그린다고 생각하면 됨 - 행렬을 이용한 방법 • 각 객체를 행렬의 행과 열에 대칭적으로..
텍스트 마이닝(Text Mining) 1. 텍스트 마이닝(Text Mining)이란? - 인터넷 데이터, 소셜미디어 데이터 등과 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관게를 발견하는 분석 기법 - 문서 요약, 문서 분류, 문서 군집, 특성 추출 2. Corpus란? - 텍스트 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계 - 더 이상 추가적인 절차 없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태 3. 텍스트 마이닝 패키지 - R : tm • tm_map(data, 처리) • 처리 종류 : as.PlainTextDocument, stripWhitespace, tolower, removewords - Python : nlp, Konlpy 4. Term-Docume..