일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- SQL on 하둡
- 분산분석
- hive
- k-means
- 유사도
- list
- pca
- distribution
- Python
- 데이터프레임
- SPLIT
- merge
- 교차검증
- pig
- cross validation
- 분포
- 딕셔너리
- 병렬 쿼리 시스템
- T-검정
- 밀도기반
- dict
- 가설검정
- DBSCAN
- DataFrame
- 결정계수
- join
- Sawzall
- 하둡
- p-value
- 다중공선성
- Today
- Total
one of a kind scene
4-1 데이터 처리 프로세스_ETL(Extraction Transforamtion Load) 본문
ETL(Extraction Transforamtion Load / 추출, 변형, 적재)
1. ETL이란?
- ETL은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어
- 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS), 데이터 웨어하우스(DW), 데이터마트(DW) 등에 데이터를 적재하는 작업의 핵심 구성요소
- ETL은 대용량 데이터에 대한 일괄(Batch)작업(일괄작업 = 실시간의 반대개념)을 통해 정형 데이터를 통합
- 그렇다면, 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술은? → CDC와 EAI
2. ETL의 기능?
- Extraction(추출) : 다양한 데이터 원천(Source)에서 부터 데이터 획득
- Transformation(변형) : 데이터 클렌징, 형식변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
- Loading(적재) : 변형단계 완료 후 특정 목표 시스템에 적재
3. ETL의 작업 단계
- Step 0(interface)
• 다양한 데이터 원천(Source)으로부터 데이터를 획득하기 위한 인터페이스 매커니즘 구현
- Step 1(Staging ETL)
• 획득된 데이터를 스테이징 테이블에 저장
- Step 2(Profiling ETL)
• 스테이징 테이블에서 데이터 특성을 식별하고 품질을 측정
- Step 3(Cleansing ETL)
• 다양한 규칙들을 활용해 프로파일링된 데이터의 보정 작업 수행
- Step 4(Integration ETL)
• (이름, 값, 구조로 인한)데이터 충돌을 해소하고, 클렌징된 데이터를 통합
- Step 5(Denormalizing ETL)
• 운영 보고서 생성
• 혹은 데이터 웨어하우스 또는 데이터 마트에 대한 데이터 적재를 위해 데이터 비정규화 수행
그림 출처
- http://www.bizteco.com/%EC%82%AC%EC%97%85%EB%B6%84%EC%95%BC/di%EC%84%9C%EB%B9%84%EC%8A%A4/
'ADP > 이론' 카테고리의 다른 글
4-1 데이터 처리 프로세스_데이터 웨어하우스(DW), 데이터 마트(DM) (2) | 2019.11.17 |
---|---|
4-1 데이터 처리 프로세스_ODS(Operational Data Store) (0) | 2019.11.17 |
3장 비정형 데이터마이닝_사회연결망 분석(SNA) (0) | 2019.11.13 |
3장 비정형 데이터마이닝_텍스트 마이닝 (0) | 2019.11.13 |
2장 정형 데이터마이닝_군집분석의 타당성 지표 (0) | 2019.11.13 |