Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- join
- 유사도
- dict
- Python
- pca
- distribution
- 하둡
- 분포
- hive
- DBSCAN
- 분산분석
- 가설검정
- list
- 밀도기반
- 병렬 쿼리 시스템
- pig
- T-검정
- SPLIT
- p-value
- DataFrame
- cross validation
- 결정계수
- k-means
- merge
- 교차검증
- 데이터프레임
- Sawzall
- SQL on 하둡
- 다중공선성
- 딕셔너리
Archives
- Today
- Total
one of a kind scene
1장 통계분석_회귀분석의 영향력 진단 본문
1. 회귀분석의 영향력 진단이란?
- 회귀분석의 안전성을 평가하는 통계적인 방법
2. 영향점이란?
- 이상치와는 다른 개념으로 회귀직선의 기울기에 영향을 크게 주는 점
- 회귀식에 나쁜 영향을 주는 점이라고 기억해두자
3. 영향력 진단 방법
1) Cook's Distance(쿡의 거리)
- i번째 관측치 포함/미포함에 따른 적합치 사이의 거리계산
- 쿡의 거리가 기준값인 1보다 클 경우 영향치로 간주
2) DFBEATAS
- i번째 관측치가 DFBEATAS값이 기준값인 2 혹은 2/sqrt(n)보다 크면 영향치로 간주
3) DFFITS
- i번째 관측치 제외 시 종속변수 예측치의 변화정도를 측정한 값
- 기준값보다 클수록 영향치일 가능성이 높음
4) Leverage H
- 관측치가 다른 관측치 집단으로부터 떨어진 정도 의미
- 기준값(=2 x (p+1)/n)보다 크면 영향치 이거나 이상치로 봄
'ADP > 이론' 카테고리의 다른 글
2장 정형 데이터마이닝_변수선택(Feature Selection) (0) | 2019.11.13 |
---|---|
1장 통계분석_더빈 왓슨(Durbin Watson) 검정 (0) | 2019.11.13 |
1장 통계분석_정규화 선형회귀(Regularized Linear Regression)와 일반화 선형회귀(GLM) (0) | 2019.11.13 |
1장 통계분석_중심극한정리(CLT) (0) | 2019.11.13 |
1장 통계분석_교차분석 (0) | 2019.11.13 |