one of a kind scene

4-1 데이터 처리 프로세스_데이터 웨어하우스(DW), 데이터 마트(DM) 본문

ADP/이론

4-1 데이터 처리 프로세스_데이터 웨어하우스(DW), 데이터 마트(DM)

specialscene 2019. 11. 17. 22:27

데이터 웨어하우스(DW)

 

1. 데이터 웨어하우스란?

     - ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소

 

2. 데이터 웨어하우스의 특징

     ① 주제 중심성(Subject Oriented)

          • 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화

          • 최종사용자(end user)도 이해하기 쉬운 형태

     ② 영속성•비휘발성(Non Volatile)

          • 읽기 전용(Read Only)의 속성을 가지며, 삭제되지 않는다

     ③ 통합성(Integrated)

          • 데이터 웨어하우스의 데이터는 기관 및 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본

     ④ 시계열성(Time Variant)

          • 운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간 순에 의한 이력 데이터를 보유

 

3. 데이터 웨어하우스의 테이블 모델링 기법

     ① 스타 스키마

          • 조인 스키마(Join Schema)라고도 하며, 데이터 웨어하우스의 스키마 중 가장 단순

          • 단일 사실 테이블(Fact Table)을 중심으로 한 다수의 차원 테이블(Dimensional Table)들로 구성

          • 전통적인 관게형 데이터베이스를 통해 다차원 데이터베이스 기능을 구현

          • 사실 테이블은 보통 제3정규형으로 모델링하며, 차원 테이블들은 보통 비정규화된 제 2정규형으로 모델링하는 것이 일반적

          • 장점 : 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하여, 조인 테이밸 개수가 적다

          • 단점 : 차원 테이블들의 비정규화에 따른 데이터 중복으로 인해 테이블로 데이터를 적재할 때 상대적으로 많은 시간이 소요

 

     ② 스노우 플레이크 스키마

          • 스타 스키마와 달리 차원 테이블을 제3정규형으로 정규화한 형태

          • 장점 : 데이터의 중복이 제거돼, 데이터 적재 시 시간이 단축

          • 단점 : 스타 스키마에 비해 구조의 복잡성이 증가하므로 조인 테이블의 갯수가 증가하고 쿼리 작성 난이도가 상승

 

4. 데이터 웨어하우스의 테이블 모델링 기법

구분 ODS(Operationa Data Store) DW(Data Warehouse
데이터의 내용 현재 또는 비교적 최신 데이터

오래된 상세데이터, 현재 상세데이터,
요약 데이터, 2차로 가공된 고도로 요약된 데이터
등 다양한 데이터

데이터의 양 비교적 소규모 데이터 대규모 데이터
데이터의 갱신

지속적으로 갱신되어

현재의 DB 상태를 반영(volatile)

데이터 축적 보관(non volatile)
=비휘발성.영속성 
기술적 요소

데이터베이스 처리의 모든 기능을
사용하도록 설게

단순한 적재(Load)와 접근(Access)중심

 

5. (추가)데이터 마트 : 보통 데이터 웨어하우스로 부터 데이터 마트가 만들어짐

     ① 데이터 마트의 정의

          • 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스

          • 특정 부서의 의사 결정 지원을 목적으로 하는 부서별 또는 부분별 데이터 웨어하우스

          • 일반적으로 한 기업에 복수의 데이터 마트 존재(부서별 구축 or 업무 기능별 구축)

          • 전사적 통합성을 염두에 두고 데이터 마트가 데이터 웨어하우스보다 먼저 구축되는 경우도 있음

 

     ② 데이터 마트의 특징

          • 분석 요건 중심 

              - 전사적 데이터 웨어하우스의 데이터를 분석 요건에 적합한 구조로 재구성

          • 요약 데이터로 구성

              - 추세, 패턴 분석 및 데이터 접근 용이

              - 필요시 일부 상세 데이터 포함

          • 제한된 규모의 이력 데이터 포함

              - 분석에 필요한 이력 데이터 포함

          • 유연성과 접근성이 뛰어난 데이터 구조

              - 다양한 질의나 요구를 충족하는 다차원 구조