일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Sawzall
- list
- 병렬 쿼리 시스템
- 결정계수
- 데이터프레임
- merge
- k-means
- 가설검정
- pig
- join
- 밀도기반
- 교차검증
- SPLIT
- SQL on 하둡
- 다중공선성
- 딕셔너리
- cross validation
- DataFrame
- T-검정
- 분산분석
- Python
- distribution
- hive
- 하둡
- dict
- DBSCAN
- p-value
- 분포
- 유사도
- pca
- Today
- Total
목록ADP/이론 (34)
one of a kind scene
데이터 통합 및 연계 기법 1. 데이터 연계 및 통합 아키텍쳐 비교(동기화 기준) ① 일괄(Batch) 통합 : 비실시간 데이터 통합, 대용량 데이터 대상, 높은 데이터 조작 복잡성 ② 비동기식 실시간 통합 : 근접 실시간 데이터 통합, 중간 용량 데이터, 중간 데이터 조작 복잡성 ③ 동기식 실시간 통합 : 실시간 데이터 통합, 목표 시스템 데이터 처리 기능시에만 원천 데이터 획득, 데이터 재처리 불가 2. 데이터 처리 기법 비교(전통적 처리 기법 vs 빅데이터 처리 기법) ① 전통적 데이터 처리 기법 : OLAP가 대표적 ② 빅데이터 처리 기법 : 시각화가 있다는게 핵심
EAI(Enterprise Application Integraion) 1. EAI란? - EAI는 비즈니스 프로세스를 중심으로 기업 내 각종 애플리케이션간의 상호연동이 가능하도록 통합하는 솔루션 - 기업 내 또는 기업 간 상호 이질적 정보 시스템들의 데이터를 연계함으로써 상호 융화 내지 동기화돼 동작하도록 하는 것 - ETL은 배치 프로세스 중심 / EAI는 실시간 혹은 근접 실시간 처리 중심 2. 데이터 연계 방식 ① 기존의 데이터 연계 방식 : Point to Point • 필요에 따라 정보 시스템들 간의 데이터를 포인트 투 포인트 방식으로 연계함으로써 위의 왼쪽 그림과 같이 복잡성 발생 ② EAI의 데이터 연계 방식 : Hub and Spoke • 가운데 지점에 허브(Hub)역할을 하는 걸 브로커 ..
CDC(Change Data Capture) 1. CDC란? - CDC(Change Data Capture)는 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조 - 실시간 또는 근접 실시간 데이터 통합을 기반으로 하는 데이터 웨어하우스 및 기타 데이터 저장소 구축에 폭 넓게 활용 2. CDC 구현 기법 ① Time Stamp on Rows • 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 칼럼 존재 • 더 최근의 타임스탬프 값을 갖는 레코드가 발견되면 변경된 것으로 식별 ② Version Numbers on Rows • 테이블 내 버전을 기록하는 칼럼 존재 • 더 최근의(=더 높은) 버전을 보유한 레코드가 발견되면 변경된 것..
데이터 웨어하우스(DW) 1. 데이터 웨어하우스란? - ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 2. 데이터 웨어하우스의 특징 ① 주제 중심성(Subject Oriented) • 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화 • 최종사용자(end user)도 이해하기 쉬운 형태 ② 영속성•비휘발성(Non Volatile) • 읽기 전용(Read Only)의 속성을 가지며, 삭제되지 않는다 ③ 통합성(Integrated) • 데이터 웨어하우스의 데이터는 기관 및 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본 ④ 시계열성(Time Variant) • 운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 ..
ODS(Operational Data Store : 운영 데이터 스토어) 1. ODS이란? - ODS는 데이터에 대한 추가 작업을 위해 다양한 데이터 원천(Source)들로부터 데이터를 추출 및 통합한 데이터베이스 - ODS 내의 데이터는 향후 비즈니스 지원을 위해 타 정보 시스템으로 이관되거나, 다양한 보고서 생성을 위해 데이터 웨어하우스로 이관된다. - ODS는 일반적으로 실시간(Real Time) 또는 실시간 근접(Near Real Time) 트랜잭션 데이터 혹은 가격 등의 원자성(개별성)을 지닌 하위 수준 데이터들을 저장하기 위해 설계 2. ODS 구성 단계 - interface 단계 • 다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계 - 데이터 Staging 단계 • 데이터 원천..
ETL(Extraction Transforamtion Load / 추출, 변형, 적재) 1. ETL이란? - ETL은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어 - 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS), 데이터 웨어하우스(DW), 데이터마트(DW) 등에 데이터를 적재하는 작업의 핵심 구성요소 - ETL은 대용량 데이터에 대한 일괄(Batch)작업(일괄작업 = 실시간의 반대개념)을 통해 정형 데이터를 통합 - 그렇다면, 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술은? → CDC와 EAI 2. ETL의 기능? - Extraction(추출) : 다양한 데이터 원천(Source)에서 부터 데이터 획득 - Transformation(변형)..