일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 교차검증
- 분산분석
- k-means
- list
- join
- cross validation
- T-검정
- 유사도
- SPLIT
- SQL on 하둡
- 데이터프레임
- distribution
- 밀도기반
- 병렬 쿼리 시스템
- pca
- 분포
- 가설검정
- pig
- 다중공선성
- Python
- Sawzall
- 하둡
- DataFrame
- p-value
- hive
- 딕셔너리
- DBSCAN
- merge
- dict
- 결정계수
- Today
- Total
목록전체 글 (90)
one of a kind scene
결정계수란(R square)? - 모형의 설명력을 뜻함 - 회귀식을 통해서 계산된 예측 값이 실제 y값을 얼마나 설명하는지를 뜻함 수정된 결정계수(adjusted R square)는 언제 필요? - 다변량 회귀분석에서는 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수(R square)가 높아짐 - 이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수가 필요 - 아래 결정계수 식을 보면 p = 독립변수의 갯수를 뜻하는데, p가 분모에 위치하면서 p가 증가함에 따라 분자에 있는 R square 값도 증가하는 영향을 어느정도 상쇄해줌 - 따라서, 독립변수의 갯수를 고려하기때문에 수정된 결정계수가 결정계수를 보완해줄 수 있음 - 보통 수정된 결정계수는 결정계수보다 작은 값으로 산출되는 특..
https://freshrimpsushi.tistory.com/850
다중 회귀모형 - 목표 : predict - 추정방법 : MSE 로지스틱 리그레션 - 목표 : 분류(classification) ( 0 or 1) - 추정방법 : MLE F값 계산 방법 - F-값 = MSE / MSR - MSR은 독립변수로 인한 변동의 비율을 뜻함 F-값에는 MSE가 사용되기때문에 추정방법에 MSE를 쓰는 다중 회귀모형에서는 F-값을 활용한 모형의 유의성 검정을 하지만 로지스틱 리그레션은 추정방법으로 MLE방법을 쓰기 때문에 모형의 유의성 검정을 하지 않는다 (참고) 로지스틱 회귀모형의 유의성은 어떤 것들로 판단할까? - deviance r-squared - prediction power https://thestatsgeek.com/2014/02/16/the-hosmer-lemeshow..
모델링을 할때 Accuracy를 맹신하고 '모델의 Accuracy만 높으면 좋은 모델이다' 라고 간주해버리는 경우가 있는데, 통계학에서는 p-value를 맹신하여 p-value(유의확률)가 유의수준 이내의 값이 나왔기때문에 귀무가설을 기각하고 대립가설을 채택한 후 연구가 유의미 하다고 결론을 내려버리는 경우가 있다 하지만, p-value만을 보고 연구가 유의미 하다고 결론을 내릴 수 없는 이유에 대해서 알아보고자 한다. 재현성 문제 재현성이란 똑같은 도구와 똑같은 방법으로 실험하면 누가 하든 똑같은 결과가 나와야함을 뜻합니다. 그래야 과학적이라고 할 수 있지요. 그런데 최근 생명과학과 의학, 사회과학, 심리학에서 많은 실험이 재현되지 않아 문제가 되고 있습니다. 재현성 문제의 예로 2012년 미국의 생명..
포스팅을 하게된 이유 분포를 공부하다보면 분포간 연관성이 있어 자주 헷갈린다. 즉, 분포를 명확하게 구별지어 이해하지 못하면 분포에 대한 지식을 활용하지 못하고 혼동만 생기게 된다. 그렇기 때문에 분포간 유사점과 차이점을 비교하여 명확하게 이해하기 위해 포스팅을 하게 되었다. Must Learning with R(url : https://wikidocs.net/book/2841)에서 대부분의 내용을 가져왔음을 미리 말씀드립니다. 코드를 활용한 활용이나 수식을 활용한 설명보다는 이론적인 내용에 집중하였습니다. 0. 서론 : 통계 분석에는 크게 2가지 분석이 있다. • 1) (집단간) 차이를 보는 분석 : t-test(t-검정)과 분산분석(ANOVA) 등 • 2) 관계를 보는 분석 : 회귀분석 등 1. 정규..
통계학을 공부하다보니, 크게 이산확률분포 연속확률분포를 공부하게되고 세부적으로 포아송분포, 이항분포 or t-분포, F-분포, 카이제곱 분포 등의 여러 종류의 분포를 공부하게된다. 이러한 분포들에 대해서 공부하다보니 이런 분포들을 왜 공부해야하고 언제 어떻게 쓰이는지에 대해서 궁금증을 갖게되어 포스팅을 하게 되었다. ● 통계학에서 분포를 공부해야하는 이유? • 통계학에서 분포를 배우는 이유는 관찰된 값이 얼마나 큰 지, 작은 지를 알 수 있다. • 반대로 분포를 모르면 관찰된 값이 얼마나 큰 지, 작은 지를 얘기할 수 없다. • 분포를 배워야 가설검정을 통해 통계적 유의성을 논할 수 있습니다. • 즉, 자료에 대한 분포를 보고 분포에 대한 가설을 세우게 되면, 가설검정을 통해 가설을 실제로 따르는지에 대..