일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 결정계수
- pca
- merge
- 다중공선성
- 유사도
- p-value
- pig
- distribution
- list
- 하둡
- 교차검증
- SQL on 하둡
- 데이터프레임
- 분산분석
- SPLIT
- 딕셔너리
- 밀도기반
- T-검정
- Python
- join
- 가설검정
- hive
- DataFrame
- DBSCAN
- cross validation
- 분포
- 병렬 쿼리 시스템
- dict
- k-means
- Sawzall
- Today
- Total
목록2020/03 (6)
one of a kind scene
Window Function(윈도우 함수)에 대해서 (궁금증을 갖게된 계기) 면접에서 SQL 문제를 Window Function이나 Analytic Function으로 풀어보라는 질문을 받았었는데, Window Function이나 Analytic Function를 쓰고는 있었지만 용어를 알지 못해서 풀지 못해 이번 기회에 정리하고자 한다. 1. Window Function 이란? • 기존 관계형 데이터베이스는 칼럼과 칼럼간의 연산, 비교, 연결이나 집합에 대한 집계는 쉬운 반면, 행과 행간의 관계를 정의하거나, 행과 행간을 비교, 연산하는 것을 하나의 SQL문으로 처리하는 것은 매우 어려운 일이었다. 하지만, 윈도우 함수를 이용한다면 행과 행간의 관계를 쉽게 정의할 수 있게 된다. • 분석 함수(ANAL..
Comprehension¶ 리스트, 셋, 딕셔너리 를 쉽게 만드는 Comprehension에 대해서 공부하고자 함 Python에 기본 자료형으로는 튜플, 리스트, 셋, 딕셔너리가 있는데, 이 중에서 튜플만 Comprehension이 없음 한국어로는 지능형 튜플, 지능형 리스트 등으로 표현하기도 한다 Reference : https://mingrammer.com/introduce-comprehension-of-python/ 1) List Comprehension(LC)¶ 1-1) 일반적인 LC¶ In [1]: # 20까지의 짝수를 출력하기 위해 다음과 같은 LC를 사용할 수 있다 evens = [x * 2 for x in range(11)] print(evens) [0, 2, 4, 6, 8, 10, 12,..
튜플(tuple), 리스트(list), 셋(set), 딕셔너리(dict) 비교 (궁금증을 갖게된 계기) : 면접에서 튜플과 리스트의 차이점을 명확하게 기억나지 않아서 제대로 설명하지 못 하였다. 따라서, 이번 기회에 여러 자료 구조간의 유사한 점과 차이점을 명확히 알아보고자 함 1. 튜플(tuple) • 리스트와 비교가 많이되며, 리스트와의 가장 큰 차이점은 요소를 삭제하거나 변경할 수 없다는 것. • 이를 immutable(불변성) 이라고 표현함, iterable 함 • 리스트는 append, remove 메소드로 요소들을 추가하거나 삭제할 수 있지만 튜플은 이러한 메소드가 없음 • 튜플 + 튜플 형식으로 요소를 추가할 수는 있으며, 삭제도 indexing을 통해서 삭제하고자 하는 요소의 index를 ..
평균의 종류(산술평균, 기하평균, 조화평균) (궁금증이 생기게 된 계기) - 모델의 성능을 평가하는 F1-score는 Precision과 Recall의 조화 평균을 사용하는 것을 보고 어떤 상황에 어떤 평균을 써야하는지에 대한 궁금증이 생김 1. 산술평균 • 일상 생활에서 가장 많이 사용하는 평균 • 각 요소의 총 합을 갯수로 나눈 것 2. 기하평균 • 각 요소를 곱한후 그 값에 루트를 씌운 값 • 일반적으로 성장률의 평균 등 상승률과 하락률을 활용한 계산에 유용하게 쓰임 • 예를 들어 1,000원의 주식이 10% 상승 후 10% 하락 했을 경우 산술적인 개념만 본다면 상승 +10% 하락 -10%로 ±10%이기 때문에 직관적으로 잘못 생각하여 가격 변동이 없다고 착각할 수 있음 • 하지만, 1,000원이..
Survival Analysis¶참고 url : https://hyperconnect.github.io/2019/07/16/survival-analysis-part1.html¶ In [8]: # !pip install pandas # !pip install lifelines In [36]: import pandas as pd # Survival Function 추정 부분 from lifelines import KaplanMeierFitter # Culmulative hazard function 추정 부분 from lifelines import NelsonAalenFitter # 유의성 검증에 활용되는 부분 from lifelines.statistics import logrank_test 데이터 입력¶ t..
코호트 연구 : 2개의 집단(공통된 특성을 가진 집단, 그렇지 않은 집단)을 나눈 다음 일정 기간 추적하며 특정한 사건의 발생을 비교해보는 연구 ex) 아스피린을 먹은 집단과 그렇지 않은 집단의 심장마비의 발생률이 어떻게 다른지를 연구 A/B 테스트 : 동일 집단을 대상으로 특정 성질이 어떻게 다른지를 검증하는 방법 ex) 웹페이지의 클릭 버튼에 대한 디자인 변경이 클릭률에 얼마나 영향을 미치는지에 관한 실험설계 코호트 격리 : 감염 질환 등을 막기 위해 감염자가 발생한 의료기관을 통째로 봉쇄하는 조치를 가리킨다. 즉, 환자와 의료진 모두를 동일 집단(코호트)으로 묶어 전원 격리해 감염병 확산 위험을 줄이는 방식이다. 참고 url https://m.post.naver.com/viewer/postView...