일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- SQL on 하둡
- merge
- 데이터프레임
- DBSCAN
- 교차검증
- 결정계수
- T-검정
- list
- 분산분석
- cross validation
- k-means
- 유사도
- 가설검정
- hive
- 분포
- Python
- pca
- join
- DataFrame
- Sawzall
- p-value
- distribution
- pig
- 다중공선성
- 딕셔너리
- 병렬 쿼리 시스템
- 하둡
- dict
- 밀도기반
- SPLIT
- Today
- Total
one of a kind scene
1장 통계분석_이산확률분포와 연속확률분포 본문
1. 이산확률분포
- 정의 : 확률변수가 가질 수 있는 값이 명확하고 셀 수 있는 경우의 분포
- 확률값 표현 : 확률질량함수(PMF : probability mass function)
- 종류
① 베르누이 확률분포
: 결과가 2개만 나오는 경우
ex) 동전던지기, 합격/불합격
② 이항분포
: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
※ 이항분포의 가정
ⓐ n의 값은 미리 정해져 있다
ⓑ 매 번의 시행은 상호 독립
ⓒ p는 매 시행마다 동일하다.
③ 기하분포
: 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
ex) A라는 야구선수가 5번 타석에 들어와서 3번째 타석에서 안타 칠 확률 → 기하분포를 따름
※ 성공확률 p는 일정
if 성공확률 p가 일정하지 않다면, 초기하분포
④ ※초기하분포※
: 사건이 서로 독립적이지 않고 종속적(예를 들어 비복원 추출)이어서 성공률이 매회 일정하지 않은 경우 사용
⑤ 다항분포
: 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
⑥ 포아송분포
: 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
λ = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값 = 단위 시간당 발생할 평균값
ex) 5경기에서 10홈런 → 1경기에 2홈런 → λ = 2
n = 사건이 일어난 수
ex) 5경기에서 10홈런 쳤을때, 오늘 경기에서 홈런을 2개칠 확률은? → n = 2
2. 연속확률분포
- 정의 : 확률변수가 가질 수 있는 값이 연속적인 실수여서 셀 수 없는 경우의 분포
- 확률값 표현 : 확률밀도함수(PDF: probability density function)
- 종류
① 균일분포
: 모든 확률변수 X가 균일한 확률을 가지는 확률분포
② 정규분포
: 평균이 μ, 표준편차가 σ인 X의 확률밀도함수
: 표준편차가 클 경우 퍼져보이는 그래프가 나타난다
③ 지수분포(→이산확률분포의 포아송분포의 연속형 버전같음)
: 어떤 사건이 발생할 때 까지 경과한 시간에 대한 연속확률분포
ex) 전제제품의 수명시간, 전화가 걸려올 때 까지의 시간, 고객이 방문하는데 걸리는 시간
④ t-분포 (유사 정규분포 형태 / 표본(=자유도) 30이상일 때 표준정규분포와 거의 동일)
: 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포
: 표본의 크기가 적을때는 표준정규분포를 위에서 눌러 놓은 것과 같은 형태를 보임
: ★두 집단 간의 평균이 동일한지 알고자 할 때 검정 통계량을 활용★
⑤ χ2-분포
: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
: 두 집단 간의 동질성 검정에 활용(범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)
: 분할표를 그려서 분석 잘함
: 자유도 = (r-1)(c-1) = (분할표 행 갯수 - 1)(분할표 열 갯수 - 1)
⑥ F-분포
: 두 집단 간의 분산의 동일성 검정에 사용되는 검정 통계량의 분포
: 확률변수는 항상 양의 값만을 갖고 χ2분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.
'ADP > 이론' 카테고리의 다른 글
1장 통계분석_정규화 선형회귀(Regularized Linear Regression)와 일반화 선형회귀(GLM) (0) | 2019.11.13 |
---|---|
1장 통계분석_중심극한정리(CLT) (0) | 2019.11.13 |
1장 통계분석_교차분석 (0) | 2019.11.13 |
1장 통계분석_분산분석(ANOVA) (0) | 2019.11.13 |
1장 통계분석_t-검정 (0) | 2019.11.12 |