일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- hive
- 데이터프레임
- dict
- 하둡
- SQL on 하둡
- SPLIT
- cross validation
- T-검정
- pca
- join
- distribution
- 결정계수
- 딕셔너리
- 분포
- DataFrame
- 다중공선성
- Python
- 가설검정
- k-means
- 병렬 쿼리 시스템
- DBSCAN
- 유사도
- 교차검증
- 분산분석
- Sawzall
- 밀도기반
- p-value
- list
- merge
- pig
- Today
- Total
목록ADP (35)
one of a kind scene
중심극한정리(CLT : Central Limit Theorem) sample size(=표본그룹 하나 당 표본의 갯수)가 30개는 되야 표본들의 평균이 정규분포를 따름 ※ 잘못된 이해 모집단 1000개에서 30개를 뽑으면 이 값들은 정규분포를 이룰 것이다. 위와 같이 이해하는 경우가 있으니 주의!!! 표본의 평균이 정규분포를 따른다는 뜻은 아래와 같음 또한, 모집단은 정규분포를 안따라도 됨 아래와 같이 30개짜리 표본을 n번 뽑았을때 표본1 : 30개 ☞ 여기서 표본평균1 표본2 : 30개 ☞ 여기서 표본평균2 . . . . 표본n : 30개 ☞ 여기서 표본평균n 이러한 표본의 갯수(n이 아니라 sample갯수 30개)가 30개는 되야 표본평균들이 정규분포를 따른다 중심극한정리 언제 유용? 모평균 추정에..
교차분석 - 언제 사용? : 범주형 자료(명목/서열 수준)인 두 변수간의 관계를 알아보기 위해 실시하는 분석 기법 : 적합도 검정, 독립성 검정, 동일성 검정에 사용 : 교차표 이용 : 카이제곱(χ2) 검정 통계량 이용 ① 적합도 검정 : 잘 fit하냐? 안하냐? : 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정 : 관측값들이 어떠한 이론적 분포를 따르고 있는지를 알아볼 수 있음 : 즉, 모집단 분포에 대한 가정이 옳게 됐는지를 관측자료와 비교하여 검정 : 두 분포가 일치하냐? vs 두 분포가 일치하지 않는다 : χ2통계량 값이 큰 경우 = 적합도 낮다 = p-value 작음 = 귀무가설 기각 O : χ2통계량 값이 작은 경우 = 적합도 크다 = p-value 크다 = 귀무가설 기각 ..
분산분석(ANOVA : Analysis of Variance) - 언제 사용? : 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동(=분산)에 비교하여 살펴보는 데이터 분석 방법 : 즉, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증(두 개 이상 집단들의 평균을 비교)하는 방법 : F-검정 통계량 이용 - 종류 ① 일원배치 분산분석(One-way ANOVA) → 독립변수(=x) : 1개, 종속변수(=y) : 1개 ex) 독립변수(=x) : 성별, 종속변수(=y) : 시험점수 : 분산분석에서 반응값(=y)에 대해 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증방법 : 모집단의 수에는 제한이 없으며, 각 표본의 수는 같지 않아도 됨 : F-검정 통계량 이용 : F=MSA ..
t-검정(t-test) - 언제 사용? : 두 집단의 평균이 동일한지 알고자 할 때 실시 : 확률변수가 연속형일 때 검정 가능 - 종류 ① 일표본 t-검정(one sample t-test) : 단일모집단에서 관심이 있는 연속형 변수의 평균(μ)값을 특정 기준값과 비교하고자 할 때 사용 ex) A과수원에서 생산되는 사과 무게가 평균 200g으로 알려져있는데, 실제로 그러한지 알아보기 위해 사과 15개를 임의로 뽑아서 무게를 측정. 이 측정치를 가지고 특정 기준값(=평균 200g)과 같다고 할 수 있는지 검정 ② 대응표본 t-검정(paired sample t-test) : 단일모집단에 대해 두 번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때 사용하는 검정 ex) 10명의 환자를..

1. 이산확률분포 - 정의 : 확률변수가 가질 수 있는 값이 명확하고 셀 수 있는 경우의 분포 - 확률값 표현 : 확률질량함수(PMF : probability mass function) - 종류 ① 베르누이 확률분포 : 결과가 2개만 나오는 경우 ex) 동전던지기, 합격/불합격 ② 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률 ※ 이항분포의 가정 ⓐ n의 값은 미리 정해져 있다 ⓑ 매 번의 시행은 상호 독립 ⓒ p는 매 시행마다 동일하다. ③ 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률 ex) A라는 야구선수가 5번 타석에 들어와서 3번째 타석에서 안타 칠 확률 → 기하분포를 따름 ※ 성공확률 p는 일정 if 성공확률 p가 일정하지 않다면, 초..