일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 밀도기반
- join
- 다중공선성
- SPLIT
- 데이터프레임
- SQL on 하둡
- hive
- p-value
- 딕셔너리
- DataFrame
- 유사도
- 교차검증
- merge
- pig
- 결정계수
- Python
- DBSCAN
- cross validation
- Sawzall
- 하둡
- 병렬 쿼리 시스템
- list
- dict
- pca
- k-means
- T-검정
- distribution
- 분산분석
- 분포
- 가설검정
- Today
- Total
one of a kind scene
[ADP 대비] 단순 (선형)회귀분석시 검토사항 본문
단순 (선형)회귀분석
단순 (선형)회귀분석에서 '단순'의 뜻은 독립변수(X)의 갯수가 1개임을 뜻함
단순 (선형)회귀분석은 1개의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법
1. ★단순 (선형)회귀분석에서의 검토 사항★
① 회귀계수들이 유의미한가?
• 회귀계수에 대한 t-통계량으로 계산된 p-값이 0.05보다 작으면 회귀계수가 통계적으로 유의함
② 모형(=회귀식)의 설명력은?
• 결정계수(R^2)를 확인한다
• 결정계수 값은 0~1값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다
③ 모형이 데이터를 잘 적합하고 있는가? = 적합성 검정 : 잔차를 살펴본다
• 잔차를 그래프로 그리고 회귀진단을 한다
2. 회귀계수의 추정 방법 = 최소제곱법
• 회귀계수 추정은 '모델을 통해서 추정된 예측값'과 '실제값'과의 차이(=잔차)를 제곱한 값들의 합이 최소가 되는 값을 회귀계수로 한다.
• 회귀계수 추정치 = ∑(예측값 - 실제값)^2 를 최소로 하는 값
3. ★단순 (선형)회귀분석에서 하는 검정★ : 위의 '1. 단순 (선형)회귀분석에서의 검토 사항' 과 관련있음
① 회귀계수의 검정
• 회귀계수가 0이면 '입력(독립)변수 X'와 '출력(종속)변수 Y' 사이에는 아무런 관련 없음
• 회귀계수 = 0 이라는 것은 접합된 추정식은 아무 의미가 없다는 뜻
• 귀무가설 : 회귀계수 = 0
• 대립가설 : 회귀계수 != 0
• 위의 회귀계수에 대한 귀무가설, 대립가설에 대한 판단은 t통계량으로 계산된 p-값이 0.05보다 작으면 회귀계수가 통계적으로 유의하다고 할 수 있음
② 결정계수
• 결정계수(R^2)는 전체제곱합에서 회귀제곱합의 비율(SSR/SST)을 뜻함. (0 ≤ R^2 ≤ 1)
• 결정계수(R^2)는 전체 데이터를 회귀모형이 설명할 수 있는 설명력을 의미
• 단순회귀분석에서 결정게수는 상관계수 r의 제곱과 같음
③ 회귀직선의 적합도 검토
• 결정계수(R^2)를 통해 추정된 회귀식이 얼마나 타당한지 검토
( 결정계수(R^2)가 1에 가까울수록 회귀모형이 자료를 잘 설명함)
• 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표