일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- T-검정
- 딕셔너리
- cross validation
- 데이터프레임
- k-means
- join
- DBSCAN
- merge
- 결정계수
- p-value
- 다중공선성
- dict
- 유사도
- SPLIT
- pig
- 병렬 쿼리 시스템
- 교차검증
- 가설검정
- Sawzall
- hive
- 하둡
- 분포
- DataFrame
- SQL on 하둡
- 밀도기반
- 분산분석
- pca
- distribution
- Python
- list
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
더빈 왓슨(Durbin Watson) 검정 1. 언제 사용? - 오차항이 독립성을 만족하는지를 검정하기 위해 사용 - 오차항이 독립성 만족하는지 확인해야하는 이유는 회귀 분석의 주요 가정이기 때문 2. 판단 - 더빈 왓슨 통계량은 0 ~ 4사이의 값을 갖을 수 있음 - 0에 가까울수록 → 양의 상관관계 - 4에 가까울수록 → 음의 상관관계 - 2에 가까울수록 → 오차항의 자기상관이 없음
1. 회귀분석의 영향력 진단이란? - 회귀분석의 안전성을 평가하는 통계적인 방법 2. 영향점이란? - 이상치와는 다른 개념으로 회귀직선의 기울기에 영향을 크게 주는 점 - 회귀식에 나쁜 영향을 주는 점이라고 기억해두자 3. 영향력 진단 방법 1) Cook's Distance(쿡의 거리) - i번째 관측치 포함/미포함에 따른 적합치 사이의 거리계산 - 쿡의 거리가 기준값인 1보다 클 경우 영향치로 간주 2) DFBEATAS - i번째 관측치가 DFBEATAS값이 기준값인 2 혹은 2/sqrt(n)보다 크면 영향치로 간주 3) DFFITS - i번째 관측치 제외 시 종속변수 예측치의 변화정도를 측정한 값 - 기준값보다 클수록 영향치일 가능성이 높음 4) Leverage H - 관측치가 다른 관측치 집단으로부..
정규화 선형회귀(Regularized Linear Regression) 1. 라쏘회귀 - 가중치들의 @절대값의 합@을 최소화하는 것을 제약조건으로 추가 - 규제 방식은 L1 Penalty 라고 함 - 중요하지 않은 가중치는 0이 될 수 있음(=가중치의 모든 원소가 0에 가까워지는 것을 원함) 2. 릿지회귀 - 가중치들의 @제곱합@을 최소하하는 것을 제약 조건으로 추가 - 규제 방식 L2 Penalty 라고 함 - 가중치는 0에 가까워질 뿐 0이되지 않는다 - 람다가 커지면 → 가중치 값은 작아지고 정규화 정도는 커짐 람다가 작아지면 → 가중치 값은 커지고 정규화 정도는 작아짐 3. 엘라스틱 넷 - 릿지회귀와 라쏘회귀를 절충한 모델 - 가중치 절대값의 합과 제곱합을 동시에 제약 조건으로 추가 - 람다1과 ..
중심극한정리(CLT : Central Limit Theorem) sample size(=표본그룹 하나 당 표본의 갯수)가 30개는 되야 표본들의 평균이 정규분포를 따름 ※ 잘못된 이해 모집단 1000개에서 30개를 뽑으면 이 값들은 정규분포를 이룰 것이다. 위와 같이 이해하는 경우가 있으니 주의!!! 표본의 평균이 정규분포를 따른다는 뜻은 아래와 같음 또한, 모집단은 정규분포를 안따라도 됨 아래와 같이 30개짜리 표본을 n번 뽑았을때 표본1 : 30개 ☞ 여기서 표본평균1 표본2 : 30개 ☞ 여기서 표본평균2 . . . . 표본n : 30개 ☞ 여기서 표본평균n 이러한 표본의 갯수(n이 아니라 sample갯수 30개)가 30개는 되야 표본평균들이 정규분포를 따른다 중심극한정리 언제 유용? 모평균 추정에..
교차분석 - 언제 사용? : 범주형 자료(명목/서열 수준)인 두 변수간의 관계를 알아보기 위해 실시하는 분석 기법 : 적합도 검정, 독립성 검정, 동일성 검정에 사용 : 교차표 이용 : 카이제곱(χ2) 검정 통계량 이용 ① 적합도 검정 : 잘 fit하냐? 안하냐? : 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정 : 관측값들이 어떠한 이론적 분포를 따르고 있는지를 알아볼 수 있음 : 즉, 모집단 분포에 대한 가정이 옳게 됐는지를 관측자료와 비교하여 검정 : 두 분포가 일치하냐? vs 두 분포가 일치하지 않는다 : χ2통계량 값이 큰 경우 = 적합도 낮다 = p-value 작음 = 귀무가설 기각 O : χ2통계량 값이 작은 경우 = 적합도 크다 = p-value 크다 = 귀무가설 기각 ..
분산분석(ANOVA : Analysis of Variance) - 언제 사용? : 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동(=분산)에 비교하여 살펴보는 데이터 분석 방법 : 즉, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증(두 개 이상 집단들의 평균을 비교)하는 방법 : F-검정 통계량 이용 - 종류 ① 일원배치 분산분석(One-way ANOVA) → 독립변수(=x) : 1개, 종속변수(=y) : 1개 ex) 독립변수(=x) : 성별, 종속변수(=y) : 시험점수 : 분산분석에서 반응값(=y)에 대해 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증방법 : 모집단의 수에는 제한이 없으며, 각 표본의 수는 같지 않아도 됨 : F-검정 통계량 이용 : F=MSA ..