one of a kind scene

[ADP 대비] 결측값 인식 및 처리방법 본문

카테고리 없음

[ADP 대비] 결측값 인식 및 처리방법

specialscene 2020. 1. 12. 02:11

1. 결측값 인식

구분 Python R
결측값 표기 NaN, None NA

 

2. 결측값 처리 방법

       ※ imputation : 대치, 대체 / stochastic : 확률적인 방법 → 표본을 통해 모수를 추측하는거 (예) SGD, Stochastic Imputation

     ① 단순 대치법(Single Imputation)

           • completes analysis

              - 결측값이 존재하는 레코드를 삭제

           • 평균대치법(Mean imputation)

              - 데이터의 평균으로 대치

              - 비조건부 평균 대치법 : 관측데이터의 평균으로 대치

              - 조건부 평균 대치법    : 회귀분석을 활용한 대치법

           • 단순확률 대치법(Single Stochastic Imputation)

              - 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법

              - Hot-deck 방법, nearest neighbor 방법 등이 있다

 

     ② 다중 대치법

           • 단순 대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법

           • 1단계 : 대치(imputation step) → 2단계 : 분석(analysis step) 3단계 : 결합(combination step)

           • Amelia-time series cross sectional data set(여러 국가에서 매년 측정된 자료)에서 bootstrapping bsed alogrithm을 활용한 다중 대치법이 있음

 

3. 이상값의 인식 방법

    ① ESD(Extreme Studentized Deviation)

         • 평균으로부터 3 표준편차 떨어진 값(각 0.15%)를 이상치로 판단

    ② 기하평균 활용한 방법

         • 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차

    ③ 사분위수를 이용한 방법

         • Q1 - 1.5 * (Q3-Q1) < data < Q3 + 1.5 * (Q3-Q1)

 

4. 이상값 절단(trimming)/제거/조정 방법

    ① 기하평균을 이용한 제거

     하단, 상단 10% 제거

     이상치 조정(winsorizing) 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용

 

(참고) boxplot을 통해서는 이상치를 확인 할 수 있다 : IQR의 1.5배 즉 Q3-Q1의 1.5배를 벗어난 값들이 이상치

 

(그림) 박스플롯

 

참고하면 좋은 url

https://rfriend.tistory.com/260