one of a kind scene

4-1 데이터 처리 프로세스_ETL(Extraction Transforamtion Load) 본문

ADP/이론

4-1 데이터 처리 프로세스_ETL(Extraction Transforamtion Load)

specialscene 2019. 11. 17. 21:17

ETL(Extraction Transforamtion Load / 추출, 변형, 적재)

 

1. ETL이란?

     - ETL은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어

     - 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS), 데이터 웨어하우스(DW), 데이터마트(DW) 등에 데이터를 적재하는 작업의 핵심 구성요소

     - ETL은 대용량 데이터에 대한 일괄(Batch)작업(일괄작업 = 실시간의 반대개념)을 통해 정형 데이터를 통합

     - 그렇다면, 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술은? → CDC와 EAI

ETL개념도1
ETL 개념도2(화살표에서 ETL작업이 일어남)

 

2. ETL의 기능?

     - Extraction(추출) : 다양한 데이터 원천(Source)에서 부터 데이터 획득

     - Transformation(변형) : 데이터 클렌징, 형식변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용

     - Loading(적재) : 변형단계 완료 후 특정 목표 시스템에 적재

 

3. ETL의 작업 단계

     - Step 0(interface)

        • 다양한 데이터 원천(Source)으로부터 데이터를 획득하기 위한 인터페이스 매커니즘 구현

     - Step 1(Staging ETL)

        • 획득된 데이터를 스테이징 테이블에 저장

     - Step 2(Profiling ETL)

        • 스테이징 테이블에서 데이터 특성을 식별하고 품질을 측정

     - Step 3(Cleansing ETL)

        • 다양한 규칙들을 활용해 프로파일링된 데이터의 보정 작업 수행

     - Step 4(Integration ETL)

        • (이름, 값, 구조로 인한)데이터 충돌을 해소하고, 클렌징된 데이터를 통합

     - Step 5(Denormalizing ETL)

        • 운영 보고서 생성

        • 혹은 데이터 웨어하우스 또는 데이터 마트에 대한 데이터 적재를 위해 데이터 비정규화 수행

 

 

그림 출처

- http://www.bizteco.com/%EC%82%AC%EC%97%85%EB%B6%84%EC%95%BC/di%EC%84%9C%EB%B9%84%EC%8A%A4/

- http://blog.naver.com/PostView.nhn?blogId=hslimm2000&logNo=220051615079&redirect=Dlog&widgetTypeCall=true&directAccess=false