일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 딕셔너리
- list
- dict
- join
- 분산분석
- 하둡
- T-검정
- 밀도기반
- 교차검증
- DBSCAN
- Sawzall
- pig
- 결정계수
- pca
- 다중공선성
- 유사도
- 가설검정
- distribution
- Python
- hive
- SQL on 하둡
- 분포
- merge
- SPLIT
- 병렬 쿼리 시스템
- p-value
- 데이터프레임
- DataFrame
- cross validation
- k-means
- Today
- Total
one of a kind scene
1장 통계분석_분산분석(ANOVA) 본문
분산분석(ANOVA : Analysis of Variance)
- 언제 사용?
: 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동(=분산)에 비교하여 살펴보는 데이터 분석 방법
: 즉, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증(두 개 이상 집단들의 평균을 비교)하는 방법
: F-검정 통계량 이용
- 종류
① 일원배치 분산분석(One-way ANOVA) → 독립변수(=x) : 1개, 종속변수(=y) : 1개
ex) 독립변수(=x) : 성별, 종속변수(=y) : 시험점수
: 분산분석에서 반응값(=y)에 대해 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증방법
: 모집단의 수에는 제한이 없으며, 각 표본의 수는 같지 않아도 됨
: F-검정 통계량 이용
: F=MSA / MSE
※ 사후 검정
: 적어도 한 집단에서 평균의 차이가 있음이 통계적으로 증명되었을 경우, 어떤 집단들에 대해서 평균의 차이가 존재하는지를 알아보기 위해 실시하는 분석
: 던칸(Duncan), 피셔의 최소유의차(LSD), 튜기(Tukey)의 HSD방법 등이 있음
② 이원배치 분산분석(Two-way ANOVA) → 독립변수(=x) : 2개, 종속변수(=y) : 1개
ex) 독립변수(=x) : 성별, 학년, 종속변수(=y) : 시험점수
: 분산분석에서 반응값에 대해 두 개의 범주형 변수 A, B의 영향을 알아보기 위해 사용되는 검증 방법
: 예를 들어 성별과 학년에 따른 시험점수의 차이에 대해 통계적으로 검정하기 위해 이원배치 분산분석을 사용
: 두 독립변수 A, B사이에 상관관계가 있는지를 살펴보는 교호작용(두 독립변수의 범주들의 조합으로 인해 반응변수에 미치는 특별한 영향)에 대한 검증이 반드시 진행되야함
※ 교호작용
: 두 변수 간의 상관관계가 있는지 확인
: 두 독립변수 A, B 사이에 상관관계가 존재할 경우, 교호작용이 있다는 의미
: 교호작용이 없을 경우 : (주효과) 검정을 진행
: 교호작용이 있을 굥우 : 검정이 무의미
③ 다원배치 분산분석(Two-way ANOVA) → 독립변수(=x) : 3개 이상, 종속변수(=y) : 1개
ex) 독립변수(=x) : 성별, 학년, 키, 종속변수(=y) : 시험점수
④ MANOVA → 독립변수(=x) : 1개 이상, 종속변수(=y) : 2개 이상
'ADP > 이론' 카테고리의 다른 글
1장 통계분석_정규화 선형회귀(Regularized Linear Regression)와 일반화 선형회귀(GLM) (0) | 2019.11.13 |
---|---|
1장 통계분석_중심극한정리(CLT) (0) | 2019.11.13 |
1장 통계분석_교차분석 (0) | 2019.11.13 |
1장 통계분석_t-검정 (0) | 2019.11.12 |
1장 통계분석_이산확률분포와 연속확률분포 (0) | 2019.11.12 |