일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- hive
- SQL on 하둡
- p-value
- pig
- 다중공선성
- pca
- 결정계수
- Sawzall
- list
- 교차검증
- 유사도
- cross validation
- DBSCAN
- Python
- distribution
- merge
- 밀도기반
- 병렬 쿼리 시스템
- dict
- DataFrame
- 하둡
- T-검정
- k-means
- 가설검정
- 분포
- join
- 분산분석
- SPLIT
- 딕셔너리
- 데이터프레임
- Today
- Total
one of a kind scene
4-1 데이터 처리 프로세스_데이터 웨어하우스(DW), 데이터 마트(DM) 본문
데이터 웨어하우스(DW)
1. 데이터 웨어하우스란?
- ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소
2. 데이터 웨어하우스의 특징
① 주제 중심성(Subject Oriented)
• 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화
• 최종사용자(end user)도 이해하기 쉬운 형태
② 영속성•비휘발성(Non Volatile)
• 읽기 전용(Read Only)의 속성을 가지며, 삭제되지 않는다
③ 통합성(Integrated)
• 데이터 웨어하우스의 데이터는 기관 및 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본
④ 시계열성(Time Variant)
• 운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간 순에 의한 이력 데이터를 보유
3. 데이터 웨어하우스의 테이블 모델링 기법
① 스타 스키마
• 조인 스키마(Join Schema)라고도 하며, 데이터 웨어하우스의 스키마 중 가장 단순
• 단일 사실 테이블(Fact Table)을 중심으로 한 다수의 차원 테이블(Dimensional Table)들로 구성
• 전통적인 관게형 데이터베이스를 통해 다차원 데이터베이스 기능을 구현
• 사실 테이블은 보통 제3정규형으로 모델링하며, 차원 테이블들은 보통 비정규화된 제 2정규형으로 모델링하는 것이 일반적
• 장점 : 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하여, 조인 테이밸 개수가 적다
• 단점 : 차원 테이블들의 비정규화에 따른 데이터 중복으로 인해 테이블로 데이터를 적재할 때 상대적으로 많은 시간이 소요
② 스노우 플레이크 스키마
• 스타 스키마와 달리 차원 테이블을 제3정규형으로 정규화한 형태
• 장점 : 데이터의 중복이 제거돼, 데이터 적재 시 시간이 단축
• 단점 : 스타 스키마에 비해 구조의 복잡성이 증가하므로 조인 테이블의 갯수가 증가하고 쿼리 작성 난이도가 상승
4. 데이터 웨어하우스의 테이블 모델링 기법
구분 | ODS(Operationa Data Store) | DW(Data Warehouse |
데이터의 내용 | 현재 또는 비교적 최신 데이터 |
오래된 상세데이터, 현재 상세데이터, |
데이터의 양 | 비교적 소규모 데이터 | 대규모 데이터 |
데이터의 갱신 |
지속적으로 갱신되어 현재의 DB 상태를 반영(volatile) |
데이터 축적 보관(non volatile) =비휘발성.영속성 |
기술적 요소 |
데이터베이스 처리의 모든 기능을 |
단순한 적재(Load)와 접근(Access)중심 |
5. (추가)데이터 마트 : 보통 데이터 웨어하우스로 부터 데이터 마트가 만들어짐
① 데이터 마트의 정의
• 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스
• 특정 부서의 의사 결정 지원을 목적으로 하는 부서별 또는 부분별 데이터 웨어하우스
• 일반적으로 한 기업에 복수의 데이터 마트 존재(부서별 구축 or 업무 기능별 구축)
• 전사적 통합성을 염두에 두고 데이터 마트가 데이터 웨어하우스보다 먼저 구축되는 경우도 있음
② 데이터 마트의 특징
• 분석 요건 중심
- 전사적 데이터 웨어하우스의 데이터를 분석 요건에 적합한 구조로 재구성
• 요약 데이터로 구성
- 추세, 패턴 분석 및 데이터 접근 용이
- 필요시 일부 상세 데이터 포함
• 제한된 규모의 이력 데이터 포함
- 분석에 필요한 이력 데이터 포함
• 유연성과 접근성이 뛰어난 데이터 구조
- 다양한 질의나 요구를 충족하는 다차원 구조
'ADP > 이론' 카테고리의 다른 글
4-1 데이터 처리 프로세스_EAI(Enterprise Application Integration) (0) | 2019.11.17 |
---|---|
4-1 데이터 처리 프로세스_CDC(Change Data Capture) (0) | 2019.11.17 |
4-1 데이터 처리 프로세스_ODS(Operational Data Store) (0) | 2019.11.17 |
4-1 데이터 처리 프로세스_ETL(Extraction Transforamtion Load) (0) | 2019.11.17 |
3장 비정형 데이터마이닝_사회연결망 분석(SNA) (0) | 2019.11.13 |