일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 유사도
- DBSCAN
- 결정계수
- 분산분석
- Python
- k-means
- dict
- SQL on 하둡
- T-검정
- 가설검정
- distribution
- pig
- cross validation
- join
- list
- 병렬 쿼리 시스템
- p-value
- SPLIT
- 딕셔너리
- DataFrame
- 데이터프레임
- 교차검증
- Sawzall
- pca
- merge
- hive
- 하둡
- 밀도기반
- 다중공선성
- 분포
- Today
- Total
one of a kind scene
1장 통계분석_교차분석 본문
교차분석
- 언제 사용?
: 범주형 자료(명목/서열 수준)인 두 변수간의 관계를 알아보기 위해 실시하는 분석 기법
: 적합도 검정, 독립성 검정, 동일성 검정에 사용
: 교차표 이용
: 카이제곱(χ2) 검정 통계량 이용
① 적합도 검정 : 잘 fit하냐? 안하냐?
: 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정
: 관측값들이 어떠한 이론적 분포를 따르고 있는지를 알아볼 수 있음
: 즉, 모집단 분포에 대한 가정이 옳게 됐는지를 관측자료와 비교하여 검정
: 두 분포가 일치하냐? vs 두 분포가 일치하지 않는다
: χ2통계량 값이 큰 경우 = 적합도 낮다 = p-value 작음 = 귀무가설 기각 O
: χ2통계량 값이 작은 경우 = 적합도 크다 = p-value 크다 = 귀무가설 기각 X
② 독립성 검정
: 모집단이 두 개의 변수 A, B에 의해 범주화 되었을때, 이 두 변수들 사이의 관계가 독립인지/아닌지를 검정
: 검정 통계량 값을 계산할 때는 교차표를 활용
: 두 변수 사이에는 연관이 없다 vs 두 변수 사이에는 연관이 있다
: χ2통계량 값이 큰 경우 = 두 변수 사이에는 연관이 있다 = p-value 작음 = 귀무가설 기각 O
: χ2통계량 값이 작은 경우 = 두 변수 사이에는 연관이 없다 = p-value 크다 = 귀무가설 기각 X
③ 동질성 검정
: 모집단이 임의의 변수에 따라 R개의 속성으로 범주화 되었을때, R개의 부분 모집단에서 추출한 각 표본인 C개의
범주화된 집단의 분포는 서로 동일한지 아닌지를 검정하는 것을 의미
: 검정 통계량 값을 계산할 때는 교차표를 활용
: 계산법과 검증법은 모두 독립성 검정과 같은 방법으로 진행
: χ2통계량 값이 큰 경우 = 두 변수 사이에는 연관이 있다 = p-value 작음 = 귀무가설 기각 O
: χ2통계량 값이 작은 경우 = 두 변수 사이에는 연관이 없다 = p-value 크다 = 귀무가설 기각 X
'ADP > 이론' 카테고리의 다른 글
1장 통계분석_정규화 선형회귀(Regularized Linear Regression)와 일반화 선형회귀(GLM) (0) | 2019.11.13 |
---|---|
1장 통계분석_중심극한정리(CLT) (0) | 2019.11.13 |
1장 통계분석_분산분석(ANOVA) (0) | 2019.11.13 |
1장 통계분석_t-검정 (0) | 2019.11.12 |
1장 통계분석_이산확률분포와 연속확률분포 (0) | 2019.11.12 |