일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- SQL on 하둡
- pca
- 분산분석
- 딕셔너리
- 밀도기반
- T-검정
- 분포
- Sawzall
- SPLIT
- dict
- 하둡
- 유사도
- DBSCAN
- 가설검정
- Python
- cross validation
- 데이터프레임
- 다중공선성
- k-means
- join
- 결정계수
- DataFrame
- 병렬 쿼리 시스템
- 교차검증
- hive
- p-value
- distribution
- merge
- pig
- list
- Today
- Total
one of a kind scene
[ADP 대비] 회귀분석의 가정 본문
회귀분석의 가정
회구분석의 가정 중에는 선형성도 있기때문에 선형회귀분석의 가정이라고도 함
1. 선형성
• 입력변수(X)와 출력변수(Y)의 관계가 선형이다.(선형 회귀분석에서 가장 중요한 가정)
• 그래프로 확인하려면 X, Y 플롯을 봐야함(X, 잔차 그래프랑 헷갈리지 말것)
2. 등분산성
• 오차(혹은 잔차)의 분산이 입력변수와 무관하게 일정
• 오차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야함
• ∩ 모양의 그래프는 X값이 커짐에 따라 잔차가 커지거나 작아지거나 하기때문에 오차와 입력변수간에 아무런 관련성이 없다고 보기힘듦
• 제일 우측 그림 역시 X값이 커짐에 따라 잔차가 커지는 모습을 보여 오차와 입력변수간에 아무런 관련성이 없다고 보기힘듦
3. 독립성
• 입력변수(X) 간에 상관관계가 없어야 함을 뜻함
• 보통 그래프로만 판단하기는 힘들다(=알 수 없음)
• 통계량으로는 Durbin-Watson 통계량
4. 정규성(정상성)
• 오차의 분포가 정규분포를 따른다.
• 그래프는 Q-Q plot
• Q-Q plot은 잔차가 대각방향의 직선의 형태를 지니고있으면 잔차는 정규분포를 따른다고함
• 통계량으로는 Kolmogolov-Smirnov 검정(KS검정), Shapiro_Wilk 검정 등을 활용
5. 가정에 대한 검증
• 단순 선형회귀분석 : 입력변수와 출력변수간의 선형성을 점검하기위해 산점도를 확인
• 다중 성형회귀분선 : 회귀분석의 가정인 [선형성, 등분산성, 독립성, 정규성(정상성)]이 모두 만족하는지 확인