one of a kind scene

p-value를 맹신하면 안되는 이유 본문

데이터 분석 이론/통계학

p-value를 맹신하면 안되는 이유

specialscene 2020. 5. 1. 23:28

모델링을 할때 Accuracy를 맹신하고 '모델의 Accuracy만 높으면 좋은 모델이다' 라고 간주해버리는 경우가 있는데,

통계학에서는 p-value를 맹신하여 p-value(유의확률)가 유의수준 이내의 값이 나왔기때문에 귀무가설을 기각하고 대립가설을 채택한 후 연구가 유의미 하다고 결론을 내려버리는 경우가 있다

하지만, p-value만을 보고 연구가 유의미 하다고 결론을 내릴 수 없는 이유에 대해서 알아보고자 한다. 

 

재현성 문제

재현성이란 똑같은 도구와 똑같은 방법으로 실험하면 누가 하든 똑같은 결과가 나와야함을 뜻합니다. 그래야 과학적이라고 할 수 있지요. 그런데 최근 생명과학과 의학, 사회과학, 심리학에서 많은 실험이 재현되지 않아 문제가 되고 있습니다. 재현성 문제의 예로 2012년 미국의 생명과학자 글렌 베글리가 <네이처>에 쓴 글을 보면 깜짝 놀랄 수밖에 없습니다. 2000년대 초반 10년간 발표된 암 관련 주요 연구 53건 중에서 단 6개만이 재현에 성공했기 때문입니다. 베글리는 당시 암 치료제를 개발하는 암젠의 수석 과학자로, 약을 개발하기 전에 관련된 연구를 재현하는 일을 했습니다. 그런데 단 11%의 연구만이 재현된 것이지요.

 

재현성 문제의 원인

이러한 재현성 문제가 나타날 수 있는 원인으로는 허술한 실험 설계와 지나치게 적은 실험 대상이 꼽히고 있음

- 수십 번 실험한 뒤 한 번 성공한 것을 논문으로 썼을 수도 있고,

- 의미 있는 결과를 내기 위해 입맛에 맞게 데이터를 변형했을 수도 있지요.

- 그 중 연구자가 잘 몰라서 문제를 일으키는 원인이 ‘P-value’입니다.

 

결론은 p-value와 연구의 중요성과는 상관이 없다

흔히 p-value를 연구의 효과가 얼마나 큰지 나타내는 척도로 생각합니다.

예를 들어 귀무가설은 ‘신약이 치료에 효과가 없다’고, 대립가설은 ‘신약이 치료에 효과가 있다’예요. P-value는 0.02가 나왔어요.

이때 p-value 0.02값을 보고 사람들이 잘못 생각하는 것이 귀무가설을 지지하는 확률은 2%밖에 안 되며, 대립가설을 지지하는 확률이 98%나 된다고 생각합니다. 즉 신약이 치료에 효과가 있을 확률이 98%라고 여깁니다.

하지만, 이는 틀린 해석입니다. p-value는 귀무가설이 옳다는 가정 아래 구한 값으로, 단지 실험데이터를 대표하는 통계량이 귀무가설과 매우 다르다는 것뿐이에요. 또한, p-value는 1종오류 귀무가설이 맞는데도 잘못해서 기각할 확률. 즉, 귀무가설을 잘못 기각할 확률이 2%인거지 귀무가설을 지지하는 확률이 2%인 것은 아닙니다.

법정에서 무죄 추정의 원칙에 따라 실제로 죄를 지었어도 증거가 부족하면 소송을 기각하지요. 마찬가지로 p-value가 0.05보다 작은 값으로 나타나면 귀무가설을 지지하는 증거가 부족해 효과가 없다는 가정을 기각합니다. 그렇지만 대립가설이 반드시 옳다거나 연구에 효과가 크다거나 하는 말은 할 수 없어요.

 

 

 

 

출처

https://terms.naver.com/entry.nhn?docId=3580638&cid=58944&categoryId=58970