일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- p-value
- T-검정
- 분포
- SPLIT
- DataFrame
- 유사도
- 결정계수
- pca
- 병렬 쿼리 시스템
- hive
- 가설검정
- distribution
- 교차검증
- dict
- 데이터프레임
- SQL on 하둡
- 분산분석
- 딕셔너리
- 다중공선성
- k-means
- 하둡
- Sawzall
- join
- Python
- pig
- cross validation
- DBSCAN
- merge
- list
- 밀도기반
- Today
- Total
목록2020/05 (4)
one of a kind scene
결정계수란(R square)? - 모형의 설명력을 뜻함 - 회귀식을 통해서 계산된 예측 값이 실제 y값을 얼마나 설명하는지를 뜻함 수정된 결정계수(adjusted R square)는 언제 필요? - 다변량 회귀분석에서는 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수(R square)가 높아짐 - 이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수가 필요 - 아래 결정계수 식을 보면 p = 독립변수의 갯수를 뜻하는데, p가 분모에 위치하면서 p가 증가함에 따라 분자에 있는 R square 값도 증가하는 영향을 어느정도 상쇄해줌 - 따라서, 독립변수의 갯수를 고려하기때문에 수정된 결정계수가 결정계수를 보완해줄 수 있음 - 보통 수정된 결정계수는 결정계수보다 작은 값으로 산출되는 특..
https://freshrimpsushi.tistory.com/850
다중 회귀모형 - 목표 : predict - 추정방법 : MSE 로지스틱 리그레션 - 목표 : 분류(classification) ( 0 or 1) - 추정방법 : MLE F값 계산 방법 - F-값 = MSE / MSR - MSR은 독립변수로 인한 변동의 비율을 뜻함 F-값에는 MSE가 사용되기때문에 추정방법에 MSE를 쓰는 다중 회귀모형에서는 F-값을 활용한 모형의 유의성 검정을 하지만 로지스틱 리그레션은 추정방법으로 MLE방법을 쓰기 때문에 모형의 유의성 검정을 하지 않는다 (참고) 로지스틱 회귀모형의 유의성은 어떤 것들로 판단할까? - deviance r-squared - prediction power https://thestatsgeek.com/2014/02/16/the-hosmer-lemeshow..
모델링을 할때 Accuracy를 맹신하고 '모델의 Accuracy만 높으면 좋은 모델이다' 라고 간주해버리는 경우가 있는데, 통계학에서는 p-value를 맹신하여 p-value(유의확률)가 유의수준 이내의 값이 나왔기때문에 귀무가설을 기각하고 대립가설을 채택한 후 연구가 유의미 하다고 결론을 내려버리는 경우가 있다 하지만, p-value만을 보고 연구가 유의미 하다고 결론을 내릴 수 없는 이유에 대해서 알아보고자 한다. 재현성 문제 재현성이란 똑같은 도구와 똑같은 방법으로 실험하면 누가 하든 똑같은 결과가 나와야함을 뜻합니다. 그래야 과학적이라고 할 수 있지요. 그런데 최근 생명과학과 의학, 사회과학, 심리학에서 많은 실험이 재현되지 않아 문제가 되고 있습니다. 재현성 문제의 예로 2012년 미국의 생명..