학교에서 데이터통계처리 혹은 간단한 통계학 과목을 수강하고 통계 프로그램에서 p-value만을 가지고 모든 것을 판단하는 실수를 저지르고 있는 친구들에게도 꼭 이 책을 추천하고 싶다. 나 또한 앞으로 논문을 쓸 때 이 책에서 말하는 오류에 빠지지 않도록 주의해야겠다고 느꼈다.
이제 글을 쓰기 시작한 터라 해당 책을 그대로 인용한 정도이지만 시간이 지남에 따라 나아질 것을 믿고 계속 공부한 내용을 블로그를 통해서 정리하려고 한다.
아래 내용은 '당신이 몰랐던 통계 오류' 책과 정희택 교수님의 계량 경제학 I 수업을 기반으로 작성되었음을 다시 한 번 알린다.
----시작 ----
유의확률(p-value)
- 유의확률 p 값이란 실제
실험에서 관측되지 않은 사실들의 확률도 포함하고 있다는 것이다. 실험에서 관측한 값보다 더 극단적인
값들에 대한 확률을 포함하는 것을 의미한다.
- 유의확률은 가설이 옳다거나 그 차이가 얼마나 중요한 것인지 알려주는
지표가 아니다. 단지 'surprise' 정도로 생각할 수
있다. 즉, 단순히 유의확률 비교를 통해 가설의 참/거짓 여부를 판단할 수 없는 것을 의미한다. 유의 확률은 그 값이
작으면 작을 수록 더욱 놀라운 일(surprise)임의 의미한다.
- 통계학적 유의성이란 한 실험의 결과가 실제로 의미가 있다는 것을 의미하는
것이 아니다. 통계학적으로 유의하지 않다는 것은 단지 잡음이라고 해석할 뿐이다.
- 유의확률을 포함한 수학적 방법은은
가설이 맞는지 틀리는지 판별할 수 없다. 다만 그 가설이 자료와 일치하는지 아닌지 만 판별할 수 있다.
- 유의확률은 효과의 크기에 대해서는 어떤 정보도 가지지 못한다.
신뢰구간(confidence interval)
- 신뢰구간이란 추정 값과 그 추정에 동반되는 불확실성을 같이 합한 것이다.
- 신뢰구간은 효과의 크기에 대한 정보를 제공한다.
- 신뢰구간이 너무 넓다면 더 많은
자료가 필요하다.
- 신뢰구간이 넓게 나타난다면 측정이
충분히 정확하게 이루어지지 않아서 아직 결론을 내리기에는 부족하다는 것을 알 수 있다. 많은 논문들이
신뢰구간을 사용하지 않고 유의확률만 사용하는 이유이기도 하다.
검정력(statistical power)
- 검정력(Statistical
power)는 대립가설이 사실일
때, 이를 사실로서 결정할 확률이다.
(Statistical power means statistic of
rejecting null hypothesis when null hypothesis is false)
- 실험에서 유의한
차이를 통계적으로 유의하다고 결론 내기 위해서는 충분한 검정력을 지녀야 한다. 검정력 분석은 자료를
모으기 전후 모두 가능하다. 연구 실험 전에 검정력 분석을 하는 경우는 실험에서 얻어야 할 적절한 통계적 표본크기(sample size)를
결정할 수 있도록 한다
- 연구의 힘은 그 연구를 통해서 어떤 특정한 크기의 효과를 우연에서 분리시켰을
확률로 정해진다.
- 검정력은 우리가 만들어낸 데이터셋 중에서 통계적으로 유의미한 결과를
가졌다고 보고하는 비율이다.
- 샘플의 수가 효과에 대해서 검증하기 위해서 충분하지 않을 때에 우리는 검정력 부족(underpowered)이라고 말한다.
- 샘플 수가 적으면 분산이 넓은 분산을 가진다. 이는 과장된 결과를 초래한다. 사실 부풀리기는 적은 샘픔 수를 가진 불충분한 연구의 결과가 넓은 분산을 가지기 때문이다. 때때로 운이 좋아서 통계학적으로 유의미한 결과가 나올 때도 있지만 매우 과장된 결과를 갖게 된다.
- 검정력의 영향 요소
1. 유의수준 (1종 오류):유의수준이
커질수록 (예. 5%에서
10%로), 즉 신뢰도가 나 빠질수 록 검정력은 좋아진다.
2. 표준편차:표준편차가 커지면
검정력은 나빠진다.
3. 두 모집단 간의 차이: 이
차이가 작을수록 검정력은 나빠진다.
4. 표본크기: 표본의 크기가
클수록 검정력은 증가한다.
가복제(pseudoreplication)
- 가복제란 샘플에 겹치는 요소가
복제되어 샘플 간 autocorrelation이 있는 샘플이 다수 존재하는 모집단의 대표성을 보이기
어려운 샘플집합을 말한다.
- 가복제는 동일한 대상에 시차를
두고 많은 측정(자기 상관성, autocorrelation)을
행함으로써 발생하기도 한다.
- 많은 샘플 수는 해당 실험에서
나타난 차이가 실험에 증명하고자하는 효과에 의해서 발생했다는 것을 뒷밤침해야지, 특정 대상에서 연속적으로
얻어진 샘플들이나 다른 조건에 의해서 발생한 것이 아니어야 한다. 즉,
가복제란 다른 문제를 풀기 위해 샘플을 모으는 것이라고 생각하면 된다.
- 가복제에 대응하기 위해서는 샘플들
간의 의존성을 방지하여야 한다.
1.
의존성을
지닌 샘플들 평균하기 : 가중분석
2.
각각의
의존성이 있는 자료들을 분식해서 분석 (다중비교에 따른 문제 내포)
3.
의존성에
맞춰 실험에서 사용할 유의확률이나 신뢰구간을 보정( 군집 표준편차, 반복측정검정, 계층 모형)
기저율(base rate)의 오류
- 우리가 실험하는 것의 효과가
있는지에 대한 것은 유의확률과 관계가 없다. 유의확률(p-value)는
값이 작을 수록 더 설득력이 있지만 약이 실제 효과가 있는지에 대한 확률은 기저율(base rate)을
감안해야 한다.
- 예제
실험을 많이 한다고 해서 모든 효과가 있는 항암제를 찾아 낼 수 있는 것이 아니기 때문에 우리는 지금 하고 있는 실험의
검정력을 0.8로 가정한다. 이 실험에서는 유의확률을 0.05로 한다.
각각의 사각형은 각 항암제의 후보를 의미한다. 첫 번째 행은 실제로 동작하는 10개의 항암제를 의미한다. 실험을 통해 오직 짙은 하늘색으로 칠해진 8개의 항암제만을 통계적으로 유의미하게 골라낼 수 있다. 아래의 진한
파란색으로 칠해진 사각형은 위양성(false positive)을 보인 항암제 다.
실험을 통해 13개의 효험이 있는 항암제를 찾아냈다. 그 중 8개는 실제로 효험이 있는 것이고 5개는 위양성을 보인 항암제 후보군들이다. 따라서 실험을 통해 효험이
있다고 판단한 항암제가 실제로 효험이 있을 확률은 8/13으로 결국
62%가 되지 않는다 FDR(false discovery rate)는 38%이다. (절대 p-value가 0.05이기 때문에, 실험을 통해 판단한 항암제가 95%로 실제 효과가 있다고 판단하면 절대 안된다!!)
댓글 없음:
댓글 쓰기