일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- SPLIT
- 데이터프레임
- k-means
- pca
- 하둡
- Sawzall
- 분산분석
- 결정계수
- Python
- SQL on 하둡
- 병렬 쿼리 시스템
- 교차검증
- 유사도
- 가설검정
- list
- 밀도기반
- 딕셔너리
- join
- pig
- merge
- T-검정
- 분포
- cross validation
- p-value
- hive
- 다중공선성
- DataFrame
- DBSCAN
- dict
- distribution
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
regression에서 모델링한 X의 범위 내에서 새로운 X*값에 대한 Y값을 알고자하는 것을 Prediction이라 하고, 모델링하는 X의 범위를 벗어난 새로운 X의 값에 대한 Y값을 알고자 하는 것을 Forecast 라고 얘기함 (추가) predcition을 분석 목적으로 본다면 prediction할 때 사용되는게 regression임
1. 언제사용? split은 구분자로 구분된 하나의 문자열(str)을 구분자 기준으로 나누어 list 형태로 만들어 줄때 사용 즉, 자료형이 string → list로 바뀌어서 return됨 (코드 모양) 문자열.split("구분자") ※구분자 없는 경우(default로 공백을 기준으로 split함) = 문자열.split("") # split 사례 a = "hello-world" a = a.split("-") # 아래와 같은 결과값을 지님 ['hello', 'world'] join은 list내의 여러 문자열들을 하나의 문자열로 만들어 줄 때 사용 즉, 자료형이 list → string로 바뀌어서 return됨 (코드 모양) "구분자".join(list or tuple) ※구분자 없이 이어붙이고 싶을때 =..
1) list 정렬하기 : list.sort(), sorted(list) - list.sort()는 return값이 없이 list자체를 변환 시켜줌, 별도로 alias안해줘도됨 - sorted(list)는 sort된 값을 return해줌. 만약, alias를 안해주면 정렬해준 값을 이후에 사용 못함 # 1) list.sort() 자체변환 : alias 불필요 # 오름차순 list.sort() # 내림차순 list.sort(reverse=True) # 2) sorted(list) : alias 필요 # 오름차순 sorted(list) # 내림차순 sorted(list, reverse=True) 2) list 역순으로 만들어주기 : list.reverse() 3) for문에서 list 역순으로 가져오기 : ..
분산 컴퓨팅 기술 part3_SQL on 하둡(임팔라) SQL on 하둡 : 실시간 SQL 질의 분석 기술 중 임팔라에 대해서 살펴봄 임팔라외 SQL on 하둡 참고 2019/11/18 - [ADP] - 4-1 데이터 처리 프로세스_대용량의 비정형 데이터 처리방법 1. SQL on 하둡 개요 • 실시간 처리라는 측면에서 하둡의 제약사항을 극복하기 위한 시도중 하나인 SQL on 하둡은 실시간 SQL 질의 분석 기술 • SQL on 하둡 기술은 하둡에 저장된 대용량 데이터를 대화형식의 SQL 질의를 통해서 처리하고 분석하는 것. 이 중에서 임팔라(Impala)에 대해서 살펴봄 2. 임팔라의 개념 및 특징 • SQL on 하둡 기술 중 먼저 대중에게 공개된 기술, Cloudera(클라우데라)에서 드레멜(Dr..
분산 컴퓨팅 기술 part2_병렬 쿼리 시스템(Sawzall, Pig, Hive) 병렬 쿼리 시스템 : 사용자가 MapReduce를 쉽게 사용할 수 있도록 새로운 쿼리 언어로 추상화된 시스템 → Sawzall, pig, Hive 등이 있으며, 실시간 데이터 처리 기술인 SQL on Hadoop과는 다르다 1. 병렬 쿼리 시스템의 개요 • 구글이나 하둡의 MapReduce는 개발자들에게 구현하려는 알고리즘에만 포커싱 할 수 있도록 간단한 프로그래밍 모델을 제공 • But, MapReduce 코딩도 어려워하는 경우가 발생 • 따라서, 직접 코딩하지 않고도 쉽고 빠르게 서비스 혹은 알고리즘을 구현하고 적용할 수 있는 환경에 대한 필요성이 대두 • 사용자에게 친숙한 쿼리 인터페이스를 통해 병렬 처리를 할 수 있..
분산 컴퓨팅 기술 part1_MapReduce MapReduce는 대용량 데이터를 분산 처리 하기 위한 프로그래밍 모델 1. 개념 및 특징 • MapReduce는 구글에서 분산 병렬 컴퓨팅을 이용하여 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프레임 워크 • 분할정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델 • 분할정복(divide and conquer) : 해결하고자 하는 문제를 성질이 같은 여러 부분으로 나누어 해결한 뒤, 원래 문제의 해를 구하는 방식 • 구글 외에 아파치 하둡에서 오픈 소스 프로젝트로 시작한 자바(Java) 기반의 'Hadoop MapReduce' 프레임 워크가 동일한 기능 지원 • Client의 수행 작업 단위는 맵리듀스 잡(MapReduce..