[ADP 대비] 결측값 인식 및 처리방법

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

one of a kind scene

[ADP 대비] 결측값 인식 및 처리방법 본문

카테고리 없음

[ADP 대비] 결측값 인식 및 처리방법

specialscene 2020. 1. 12. 02:11

1. 결측값 인식

구분	Python	R
결측값 표기	NaN, None	NA

2. 결측값 처리 방법

※ imputation : 대치, 대체 / stochastic : 확률적인 방법 → 표본을 통해 모수를 추측하는거 (예) SGD, Stochastic Imputation

① 단순 대치법(Single Imputation)

• completes analysis

- 결측값이 존재하는 레코드를 삭제

• 평균대치법(Mean imputation)

- 데이터의 평균으로 대치

- 비조건부 평균 대치법 : 관측데이터의 평균으로 대치

- 조건부 평균 대치법 : 회귀분석을 활용한 대치법

• 단순확률 대치법(Single Stochastic Imputation)

- 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법

- Hot-deck 방법, nearest neighbor 방법 등이 있다

② 다중 대치법

• 단순 대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법

• 1단계 : 대치(imputation step) → 2단계 : 분석(analysis step) → 3단계 : 결합(combination step)

• Amelia-time series cross sectional data set(여러 국가에서 매년 측정된 자료)에서 bootstrapping bsed alogrithm을 활용한 다중 대치법이 있음

3. 이상값의 인식 방법

① ESD(Extreme Studentized Deviation)

• 평균으로부터 3 표준편차 떨어진 값(각 0.15%)를 이상치로 판단

② 기하평균 활용한 방법

• 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차

③ 사분위수를 이용한 방법

• Q1 - 1.5 * (Q3-Q1) < data < Q3 + 1.5 * (Q3-Q1)

4. 이상값 절단(trimming)/제거/조정 방법

① 기하평균을 이용한 제거

② 하단, 상단 10% 제거

③ 이상치 조정(winsorizing) 방법 : 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용

(참고) boxplot을 통해서는 이상치를 확인 할 수 있다 : IQR의 1.5배 즉 Q3-Q1의 1.5배를 벗어난 값들이 이상치

참고하면 좋은 url

https://rfriend.tistory.com/260

one of a kind scene

[ADP 대비] 결측값 인식 및 처리방법 본문

[ADP 대비] 결측값 인식 및 처리방법

티스토리툴바