일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 분포
- 다중공선성
- Sawzall
- pca
- hive
- merge
- T-검정
- DataFrame
- p-value
- SQL on 하둡
- Python
- 밀도기반
- 딕셔너리
- 교차검증
- pig
- list
- DBSCAN
- cross validation
- 유사도
- SPLIT
- join
- k-means
- 병렬 쿼리 시스템
- 분산분석
- 데이터프레임
- 가설검정
- 결정계수
- distribution
- 하둡
- dict
- Today
- Total
목록하둡 (2)
one of a kind scene

분산 컴퓨팅 기술 part1_MapReduce MapReduce는 대용량 데이터를 분산 처리 하기 위한 프로그래밍 모델 1. 개념 및 특징 • MapReduce는 구글에서 분산 병렬 컴퓨팅을 이용하여 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프레임 워크 • 분할정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델 • 분할정복(divide and conquer) : 해결하고자 하는 문제를 성질이 같은 여러 부분으로 나누어 해결한 뒤, 원래 문제의 해를 구하는 방식 • 구글 외에 아파치 하둡에서 오픈 소스 프로젝트로 시작한 자바(Java) 기반의 'Hadoop MapReduce' 프레임 워크가 동일한 기능 지원 • Client의 수행 작업 단위는 맵리듀스 잡(MapReduce..

대용량의 비정형 데이터 처리방법 1. 대용량 로그 데이터 수집 ① 로그(log) • 로그(log)는 기업에서 발생하는 대표적인 비정형 데이터로, 과거에는 문제 상황 보존을 위해 사용했고 • 최근에는 마케팅/영업 전략 수립을 위한 사용자의 행태 분석 등에 사용 • 용량이 방대하기 때문에 이를 분석하기 위해서는 고성능과 확장성을 가진 시스템이 필요 • 로그 데이터 수집 시스템의 예 : 아파치 Flume_NG, 페이스북 Scribe, 아파치 Chukwa 등 ② 대용량 비정형 데이터 수집 시스템의 특징 • 초고속 수집 성능과 확장성 • 데이터 전송 보장(안전성) 매커니즘 - 성능과 안전성이라는 트레이드 오프(Trade-Off)가 존재 • 다양한 수집과 저장 플러그인 - 다양한 비정형 데이터를 몇가지 설정만으로도..