일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- SPLIT
- cross validation
- 다중공선성
- 데이터프레임
- 유사도
- 딕셔너리
- join
- 결정계수
- p-value
- pig
- 가설검정
- 분포
- Sawzall
- merge
- 하둡
- 분산분석
- 교차검증
- DataFrame
- hive
- k-means
- SQL on 하둡
- distribution
- pca
- 밀도기반
- T-검정
- list
- 병렬 쿼리 시스템
- Python
- DBSCAN
- dict
- Today
- Total
one of a kind scene
[연속형 확률 분포] 정규분포, t-분포, F-분포, 카이제곱 분포 본문
포스팅을 하게된 이유
분포를 공부하다보면 분포간 연관성이 있어 자주 헷갈린다.
즉, 분포를 명확하게 구별지어 이해하지 못하면 분포에 대한 지식을 활용하지 못하고 혼동만 생기게 된다. 그렇기 때문에 분포간 유사점과 차이점을 비교하여 명확하게 이해하기 위해 포스팅을 하게 되었다.
Must Learning with R(url : https://wikidocs.net/book/2841)에서 대부분의 내용을 가져왔음을 미리 말씀드립니다.
코드를 활용한 활용이나 수식을 활용한 설명보다는 이론적인 내용에 집중하였습니다.
0. 서론 : 통계 분석에는 크게 2가지 분석이 있다.
• 1) (집단간) 차이를 보는 분석 : t-test(t-검정)과 분산분석(ANOVA) 등
• 2) 관계를 보는 분석 : 회귀분석 등
1. 정규분포와 t-분포
(이것만은 알아두자)
• t-분포는 순전히 평균 검정을 하기 위해 고안된 분포
• 정규분포와 다르게 t분포는 모분산 σ2 를 포함하고 있지 않다. 이는 표본 수가 적을 때 신뢰성을 더해준다.
• 표본 수가 적을 때, t분포는 표준정규분포보다 양쪽 꼬리가 더 두텁다. 이는 t-분포가 보다 보수적인 검정을 하게 해준다.
• 표본수가 많아지면 t분포와 표준정규분포에 근사한다.
(상세설명)
• 일반적으로 우리는 모분산(σ^2) 을 정확히 알 수 없는데, 모분산에 따라 정규분포의 모양이 크게 좌지우지되어 정규분포를 이용한 검정이 그 신뢰성을 잃게됩니다.
• 이 경우 검정을 위해, 정규분포와 형태는 비슷하지만 모분산 항을 포함하고 있지 않고, 대신 표본분산을 이용한 분포를 고안해 내는데 → 그것이 t-분포
• t-분포는 정규분포와 같이 중심을 기준으로 좌우 대칭이고 종모양의 형태를 갖고 중심은 0으로 고정되어있습니다.
• 즉, 위에서 다룬 표준정규분포와 중심이 같고 자유도(degree of freedom, df)에 따라 종의 형태가 조금씩 변화합니다. df는 표본 수와 관련이 있는 개념으로, 표본이 많아지면 t-분포는 표준정규분포와 거의 동일한 형태를 보입니다.
• t-분포의 또 다른 특징은 표본 수가 적으면 적을수록 표준정규분포에 비해 양쪽 꼬리가 더 두껍다는 것입니다. 이는 데이터들이 그만큼 중심에 덜 모여있다는 것입니다.
• 정규분포와 t-분포는 검정의 관점에서 바라볼 필요도 있습니다. 정규분포를 이용한 검정의 경우, 중심에서 비교적 조금만 벗어나도 다르다는 결과를 보이지만 t-분포는 정규분포에 비해 상대적으로 더 벗어나도 같다는 결과를 줍니다. 이는 표본 수가 적은데서 나오는 우연에 의한 극단적인 값에 대해서도 어느정도 유연한 검정 결과를 준다고 할 수 있습니다.
(보수적인 검정인 이유)
• 각 그래프의 색칠한 부분은 좌우 각각 데이터의 2.5% 씩, 합쳐서 5%의 영역입니다. 위 그림에서 확인할 수 있듯, 표준정규분포 보다는 t분포가 훨씬 더 중심에서 많이 퍼져있음을 볼 수 있습니다. 만약 이대로 검정을 하게 된다면 표준정규분포는 중심과 2정도만 차이나도 다르다는 결과를 주겠지만, t분포는 중심과 3이 차이난다고 하여도 같다는 결과를 줄 것입니다. 이와 같은 결과를 '보수적이다' 혹은 '보수적인 검정이다' 라고 표현하는데 웬만큼 확신이 없으면 다르다는 결과를 주지 않기 때문에 그렇게 불립니다.
• 즉, 평균에 대한 검정에서 표준정규분포를 이용한 검정보다 t분포를 이용한 검정이 더 보수적인 접근방법이라고 할 수 있습니다. 자세한 것은 t검정 파트에서 데이터와 함께 다시 다루겠지만 세 가지 정도는 기억해두고 가도록 합시다.
2. F-분포와 카이제곱 분포 : 변동(분산)에 관한 분포 → 변동을 이용하여 검정, 추정을 위해 고안된 확률구조
(이것만은 알아두자)
• 카이제곱 분포 : 변동의 '단위' 와 '자료 수' 를 반영할 수 있도록 고안된 분포
• F-분포 : 카이제곱들의 비(ratio)가 따르는 분포
• 카이제곱들의 비는 두 변동을 비교하기 위해 사용되는 것으로, 이 역시 자료 수와 관련된 자유도가 반영됨
(자료수가 반영되어야하는 이유)
• 두 집단의 변동을 비교하는 방법으로 두 변동의 차이를 사용하면 곤란합니다.
• 비교하려는 집단의 단위가 다를 수 있을 뿐더러 각 집단의 수를 반영해주어야 하기 때문입니다.
• 예컨대, 한 집단은 cm 단위로 조사되었고 다른 집단은 m단위로 표현되어 있는 길이를 생각해 봅시다. 같은 수준의 변동을 가졌다고 해도 막상 제곱합을 구해보면 cm로 조사된 집단의 더 크게 나올 것입니다. 단위가 다르기 때문이죠.
• 또한 10개 데이터에서와 100개 데이터에서의 분산을 똑같이 보면 곤란합니다. 이는 '제곱의 합' 꼴로 표현되므로 자료 수가 많으면 많을수록 더욱 커질 수 밖에 없는 구조이기 때문이죠.
(변동(분산)을 알아야하는 이유 : 비교의 신뢰성을 표현하기 때문)
• 통계에서는 변동(분산)은 비교, 관계 등 모든 분석에서 사용되는 개념입니다.
• 변동은 단순히 해당 변수의 퍼짐 정도를 나타내는 것뿐 아니라 비교의 신뢰성을 표현하기도 합니다.
• 예를 들어, 두 집단의 평균이 큰 차이가 없어도 그 평균의 변동이 크다면 신뢰하기 힘듭니다. 또한, 변동은 볼륨을 뜻하기도 합니다. A라는 변동과 B라는 변동이 있을 때, 비교를 통하여 더 큰 볼륨(파워, 확장성)을 가진 변동을 알 수 있습니다.
• 우리는 이러한 변동을 측정하는 도구로 제곱합 구조를 사용하게 됩니다. 그 이유는 변동을 측정하는 방법에 있습니다. 변동은 어떤 값을 기준으로 각 관찰값들이 그 기준값과 얼만큼 떨어져 있는지 평가하는 방식으로 측정하게 되는데, 대부분의 경우 평균을 사용하게 됩니다. 그렇지만 단순히 평균과 관찰값들의 거리를 이용하면 그 합이 0이 되어 의미가 없어지기 때문이죠. 이 구조적인 문제를 해결하고자 기준값과의 거리의 제곱을 이용하게 됩니다. 그렇기에 변동은 오로지 양적인 값으로만 표현됩니다.
3. t-검정와 F-검정(분산분석) : 차이를 보는 분석(비교) / F-검정은 t-검정의 확장이다. / F-검정은 일반적으로 세집단 이상을 비교
(이것만은 알아두자)
• 통계분석에는 ①차이를 보는 분석(비교)과 ②관계를 보는 분석이라는 두 개의 큰 관심분야가 있습니다.
• 이 중에서 ①차이를 보는 분석으로는 두 개 이상의 집단간 차이를 볼 때 활용되는 t-test(t-검정)와 분석분석(F-검정)이 있습니다.
• 모평균 가설검정이 대표적인 t검정
• 분산분석은 t-검정의 확장으로 일반적으로 세 집단 이상을 비교합니다.
• 물론, 분산분석은 두 집단의 비교도 가능하지만 t검정과 결과가 일치합니다.
'데이터 분석 이론 > 통계학' 카테고리의 다른 글
[결정계수] R square와 adjusted R square (0) | 2020.05.01 |
---|---|
로지스틱 regression에서 이탈도(deviance) (0) | 2020.05.01 |
다중 회귀모형과 달리 로지스틱 회귀모형에서 F-값을 이용한 모형의 유의성을 확인하지 않는 이유? (1) | 2020.05.01 |
p-value를 맹신하면 안되는 이유 (0) | 2020.05.01 |
통계학에서 여러 종류의 분포(Distribution)를 공부해야하는 이유? (0) | 2020.04.30 |