[ADP 대비] 결측값 인식 및 처리방법
1. 결측값 인식
구분 | Python | R |
결측값 표기 | NaN, None | NA |
2. 결측값 처리 방법
※ imputation : 대치, 대체 / stochastic : 확률적인 방법 → 표본을 통해 모수를 추측하는거 (예) SGD, Stochastic Imputation
① 단순 대치법(Single Imputation)
• completes analysis
- 결측값이 존재하는 레코드를 삭제
• 평균대치법(Mean imputation)
- 데이터의 평균으로 대치
- 비조건부 평균 대치법 : 관측데이터의 평균으로 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치법
• 단순확률 대치법(Single Stochastic Imputation)
- 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법
- Hot-deck 방법, nearest neighbor 방법 등이 있다
② 다중 대치법
• 단순 대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
• 1단계 : 대치(imputation step) → 2단계 : 분석(analysis step) → 3단계 : 결합(combination step)
• Amelia-time series cross sectional data set(여러 국가에서 매년 측정된 자료)에서 bootstrapping bsed alogrithm을 활용한 다중 대치법이 있음
3. 이상값의 인식 방법
① ESD(Extreme Studentized Deviation)
• 평균으로부터 3 표준편차 떨어진 값(각 0.15%)를 이상치로 판단
② 기하평균 활용한 방법
• 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차
③ 사분위수를 이용한 방법
• Q1 - 1.5 * (Q3-Q1) < data < Q3 + 1.5 * (Q3-Q1)
4. 이상값 절단(trimming)/제거/조정 방법
① 기하평균을 이용한 제거
② 하단, 상단 10% 제거
③ 이상치 조정(winsorizing) 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용
(참고) boxplot을 통해서는 이상치를 확인 할 수 있다 : IQR의 1.5배 즉 Q3-Q1의 1.5배를 벗어난 값들이 이상치
참고하면 좋은 url