'통계오류'에 해당되는 글 1건

  1. 2008/01/20 학회후기(2) (2) by Hare&Tortoise

번에는 통계적용에서 오는 오류들에 관한 주제발표들을 정리해볼까 합니다. 최근 통계를 이용한 논문들이 많아지면서 통계 결과값에 대한 맹신으로 인해 그 결과값이 무엇을 의미하는지 생각해보지도 않고 논문으로 제출하려고 하는 사람들이 많다는군요. 통계 오류에 관한 주제발표는 여러분이 나와서 하였으며 그것들 중에서 기억에 남는 두가지를 차례로 정리해봅니다.

1. 상관관계(Correlation)이 원인(Causation)을 나타내진 못한다.
통계를 제대로 이해하지 못한 사람은 둘(A,B) 사이에 상관관계만을 가지고 A 혹은 B가 서로에 대한 원인이며 결과가 된다고 이해해버리는 경우를 많다고 한다. 그러나 이러한 잘못된 판단은 4가지 오류로부터 나온다고 정리하더군요.

1. 'B는 아마 A의 원인일거야' 라는 막연한 생각

2. 또다른 변수가 A와 B의 원인일 가능성
    이 오류를 해결하기 위해서는 실험디자인, 샘플링, 층화분석등이 필요하다고 하네요.

3. 관계(Relation)이라는 것은 복잡하고 불분명하다.
    R-square 값만을 가지고 관계식을 판단할 수 없다. 이 부분은 다른 발표에서도 계속 지적되는 부분이었다.

4. A가 B의 원인인 것과 같이 B가 A의 원인일지 모른다.
    상관관계만을 가지고 어느것이 진정한 원인인지 구분할 수 없음을 이야기하고 있다.


사용자 삽입 이미지

런 오류를 피하기 위해서는 Stationarity Test, Cointegration Test, F-test와 T-test간의 결과차이 등을 살펴볼 필요가 있다고 합니다. 원인을 규명하는 작업은 결코 쉬운 작업이 아니며 데이터간의 시간순서, 연관성, 일관성등을 면밀히 살펴야 한다고 발표자는 이야기하였구요.


2. 'Goodness of Fit' 이 전부가 아니다.
주제발표는 어떤 현상을 예측하는 모델을 만들때 자주 나타나는 Over-fit 되어진 현상을 이야기하였습니다. 여러변수들 중에서 어떤 변수들이 미래현상을 예측하는데 가장 적절한지를 가려내는 방법으로 Neural Nets, Tree-Based 모델 등이 있는데 이들을 이용해서 변수를 정해나가면 점점 더 높은 R-square값을 가지게 된다고 합니다. 이런 경험은 저도 수업과제를 하면서 경험하고 고민했던 부분인데요. 항상 Over-fit가 일어나지는 않았는지 검토가 필요하더군요.

사용자 삽입 이미지

복잡한 변수관계를 설정해서 이전 연구보다 더 높은 R-square 값을 가짐으로써 자신의 연구가 이전 연구자의 연구보다 우월하다고 말하는 웃지못할 논문들도 많다는 이야기도 빼놓지 않았습니다. 사실은 논문이 주어진 데이터에만 over-fit 되어진 경우인지에 대한 검토가 없다면 논문자체로써의 가치가 흔들릴 수 있답니다.
크리에이티브 커먼즈 라이선스
Creative Commons License
이올린에 북마크하기(0) 이올린에 추천하기(0)

'거북이 > 끄적끄적' 카테고리의 다른 글

Scholarpedia (Wikipedia의 진화인가)  (0) 2008/03/10
학회후기(2)  (2) 2008/01/20
학회후기(1)  (0) 2008/01/19
워싱턴 입니다.  (4) 2008/01/13
Wikipedia의 저력 (네이버 비교)  (2) 2008/01/12
워싱턴과 대운하  (2) 2008/01/10
Posted by Hare&Tortoise

트랙백 주소 :: http://handt.tistory.com/trackback/16

댓글을 달아 주세요

  1. 비밀댓글 입니다