일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- SPLIT
- merge
- 교차검증
- join
- SQL on 하둡
- cross validation
- 결정계수
- DataFrame
- pig
- 다중공선성
- 분산분석
- dict
- 데이터프레임
- 유사도
- distribution
- p-value
- 밀도기반
- 딕셔너리
- pca
- 분포
- Python
- k-means
- 가설검정
- Sawzall
- 병렬 쿼리 시스템
- T-검정
- hive
- list
- 하둡
- DBSCAN
- Today
- Total
one of a kind scene
[ADP 대비] 결측값 인식 및 처리방법 본문
1. 결측값 인식
구분 | Python | R |
결측값 표기 | NaN, None | NA |
2. 결측값 처리 방법
※ imputation : 대치, 대체 / stochastic : 확률적인 방법 → 표본을 통해 모수를 추측하는거 (예) SGD, Stochastic Imputation
① 단순 대치법(Single Imputation)
• completes analysis
- 결측값이 존재하는 레코드를 삭제
• 평균대치법(Mean imputation)
- 데이터의 평균으로 대치
- 비조건부 평균 대치법 : 관측데이터의 평균으로 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치법
• 단순확률 대치법(Single Stochastic Imputation)
- 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법
- Hot-deck 방법, nearest neighbor 방법 등이 있다
② 다중 대치법
• 단순 대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
• 1단계 : 대치(imputation step) → 2단계 : 분석(analysis step) → 3단계 : 결합(combination step)
• Amelia-time series cross sectional data set(여러 국가에서 매년 측정된 자료)에서 bootstrapping bsed alogrithm을 활용한 다중 대치법이 있음
3. 이상값의 인식 방법
① ESD(Extreme Studentized Deviation)
• 평균으로부터 3 표준편차 떨어진 값(각 0.15%)를 이상치로 판단
② 기하평균 활용한 방법
• 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차
③ 사분위수를 이용한 방법
• Q1 - 1.5 * (Q3-Q1) < data < Q3 + 1.5 * (Q3-Q1)
4. 이상값 절단(trimming)/제거/조정 방법
① 기하평균을 이용한 제거
② 하단, 상단 10% 제거
③ 이상치 조정(winsorizing) 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용
(참고) boxplot을 통해서는 이상치를 확인 할 수 있다 : IQR의 1.5배 즉 Q3-Q1의 1.5배를 벗어난 값들이 이상치
참고하면 좋은 url