일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 다중공선성
- cross validation
- 유사도
- SPLIT
- SQL on 하둡
- 밀도기반
- 가설검정
- dict
- hive
- 딕셔너리
- distribution
- 데이터프레임
- list
- 분포
- DBSCAN
- T-검정
- k-means
- 병렬 쿼리 시스템
- 분산분석
- merge
- Sawzall
- DataFrame
- 하둡
- 결정계수
- p-value
- Python
- 교차검증
- pca
- join
- pig
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene

용어 정리 및 어원 - Calculus 어원 : 어원적으로 라틴어 calculus 는 '작은 돌( small stone ), 조약돌( pebble )'을 의미하는데 이러한 돌을 계산을 할 때 사용해서 단어 calculate(계산하다)도 여기에서 유래됨 - 미적분 : Calculus - 미분 : Differential Calculus, Differentiation - (참고) 도함수 : Derivatives - 적분 : Integral Calculus, Integration 수학적 표기법 - 미분(D, d) : Differential의 D를 의미 - 적분(∫) : 영문 대문자 S자를 길게 늘여뜨린 모양. Sum의 S를 의미 미분이란? - 미분의 가장 정확한 표현은 순간변화율 이다. - 적분의 반대말이 미분..
Window Function(윈도우 함수)에 대해서 (궁금증을 갖게된 계기) 면접에서 SQL 문제를 Window Function이나 Analytic Function으로 풀어보라는 질문을 받았었는데, Window Function이나 Analytic Function를 쓰고는 있었지만 용어를 알지 못해서 풀지 못해 이번 기회에 정리하고자 한다. 1. Window Function 이란? • 기존 관계형 데이터베이스는 칼럼과 칼럼간의 연산, 비교, 연결이나 집합에 대한 집계는 쉬운 반면, 행과 행간의 관계를 정의하거나, 행과 행간을 비교, 연산하는 것을 하나의 SQL문으로 처리하는 것은 매우 어려운 일이었다. 하지만, 윈도우 함수를 이용한다면 행과 행간의 관계를 쉽게 정의할 수 있게 된다. • 분석 함수(ANAL..
Comprehension¶ 리스트, 셋, 딕셔너리 를 쉽게 만드는 Comprehension에 대해서 공부하고자 함 Python에 기본 자료형으로는 튜플, 리스트, 셋, 딕셔너리가 있는데, 이 중에서 튜플만 Comprehension이 없음 한국어로는 지능형 튜플, 지능형 리스트 등으로 표현하기도 한다 Reference : https://mingrammer.com/introduce-comprehension-of-python/ 1) List Comprehension(LC)¶ 1-1) 일반적인 LC¶ In [1]: # 20까지의 짝수를 출력하기 위해 다음과 같은 LC를 사용할 수 있다 evens = [x * 2 for x in range(11)] print(evens) [0, 2, 4, 6, 8, 10, 12,..
튜플(tuple), 리스트(list), 셋(set), 딕셔너리(dict) 비교 (궁금증을 갖게된 계기) : 면접에서 튜플과 리스트의 차이점을 명확하게 기억나지 않아서 제대로 설명하지 못 하였다. 따라서, 이번 기회에 여러 자료 구조간의 유사한 점과 차이점을 명확히 알아보고자 함 1. 튜플(tuple) • 리스트와 비교가 많이되며, 리스트와의 가장 큰 차이점은 요소를 삭제하거나 변경할 수 없다는 것. • 이를 immutable(불변성) 이라고 표현함, iterable 함 • 리스트는 append, remove 메소드로 요소들을 추가하거나 삭제할 수 있지만 튜플은 이러한 메소드가 없음 • 튜플 + 튜플 형식으로 요소를 추가할 수는 있으며, 삭제도 indexing을 통해서 삭제하고자 하는 요소의 index를 ..

평균의 종류(산술평균, 기하평균, 조화평균) (궁금증이 생기게 된 계기) - 모델의 성능을 평가하는 F1-score는 Precision과 Recall의 조화 평균을 사용하는 것을 보고 어떤 상황에 어떤 평균을 써야하는지에 대한 궁금증이 생김 1. 산술평균 • 일상 생활에서 가장 많이 사용하는 평균 • 각 요소의 총 합을 갯수로 나눈 것 2. 기하평균 • 각 요소를 곱한후 그 값에 루트를 씌운 값 • 일반적으로 성장률의 평균 등 상승률과 하락률을 활용한 계산에 유용하게 쓰임 • 예를 들어 1,000원의 주식이 10% 상승 후 10% 하락 했을 경우 산술적인 개념만 본다면 상승 +10% 하락 -10%로 ±10%이기 때문에 직관적으로 잘못 생각하여 가격 변동이 없다고 착각할 수 있음 • 하지만, 1,000원이..
Survival Analysis¶참고 url : https://hyperconnect.github.io/2019/07/16/survival-analysis-part1.html¶ In [8]: # !pip install pandas # !pip install lifelines In [36]: import pandas as pd # Survival Function 추정 부분 from lifelines import KaplanMeierFitter # Culmulative hazard function 추정 부분 from lifelines import NelsonAalenFitter # 유의성 검증에 활용되는 부분 from lifelines.statistics import logrank_test 데이터 입력¶ t..