赤裸裸的统计学:5大常见统计偏倚

小编来今天给同学们带来的趣味数学故事是:赤裸裸的统计学:5大常见统计偏倚 。
每天10分钟头脑大风暴,开发智力,培养探索能力,让你成为学习小天才 。
故事适合年级:小学【赤裸裸的统计学:5大常见统计偏倚】趣味小故事: 每项重要的研究背后都离不开好的数据,是它们使分析成为可能 。而每项不好的研究背后嘛……这个后面会说 。人们常说“用数据说谎”,我要说往往数据的分析是没问题的,但这些分析却是建立在夸大或不实的数据之上 。下面便是几个常见的“错进错出”案例 。
【赤裸裸的统计学:5大常见统计偏倚】 选择偏倚
《纽约客》资深影评人宝琳?凯尔(Pauline Kael)据称曾经在理查德?尼克松(Richard Nixon)当选美国总统后评论:“尼克松不可能赢了竞选,我认识的人里面没一个投了他 。”这句话很有可能是杜撰的,但却很好地说明了糟糕的样本(一群自由派朋友)会如何给更大的群体带来错误的偏见(全美国的投票结果) 。而这也引出了我们应该问自己的问题:如何选择评估样本?如果要接受评估的群体的每一个成员没有均等的机会入选样本,那么最终得出的结论就将会有偏颇 。以爱荷华州的民意测验为例,这是美国总统竞选中的一项惯例,在总统大选年的8月,也就是正式投票的前一个月,共和党的候选人会来到爱荷华州的埃姆斯市(Ames)笼络选民,选民每个人支付30美元投上一票以参与表决 。爱荷华州的民意测验结果并不能告诉我们共和党候选人的未来 。(该调查的预测在过去5次大选中只说对了3次共和党提名候选人的结果 。)为什么?因为支付30美元投票参与这项民意测验的爱荷华州共和党选民跟爱荷华州的其他共和党选民不同,而爱荷华州的共和党选民又跟美国其他地区的共和党选民不同 。
“尼克松不可能赢了竞选,我认识的人里面没一个投了他 。”
选择偏倚还有其他很多种形式 。在机场做消费者问卷调查很可能造成偏倚,因为坐飞机的人大体上会比一般人更富裕;而在90号洲际公路上做同样的调查问卷结果又会偏向另一端 。而两项调查都有可能出现的偏倚则是那些愿意在公共场合接受问卷调查的人不同于那些不愿意被打扰的人 。如果你在公共场合问100个人做一份简短的调查,其中只有60人愿意,那么这60个人跟剩下40个看都不看你一眼就走开的人在某些地方有着显著的不同 。
发表偏倚
阳性的结果(例如发现a与b相关)比阴性的(例如未发现a和b之间存在关联)更有可能得到发表,而这可能会混淆我们最终所见到的结论 。假设你刚刚做完了一次严谨的追踪调查,得出结论认为玩视频游戏不能预防结肠癌 。在这项调查中,你花了20年的时间跟踪访问了作为代表性样本的10万个美国人;这些人当中,长时间玩视频游戏的跟不玩儿视频游戏的罹患结肠癌的几率基本一致 。我们假设你的研究方法完美无缺 。但哪家医学期刊会发表你的研究结论呢?
大多数活动都不能预防结肠癌 。
答案是没有 。原因有二:第一,没有有力的科学理由认为玩儿视频游戏对结肠癌有什么影响,因此你研究这个的意义不明;其次,也是更重要的一点,某件事情不能预防结肠癌不是什么有趣的发现 。毕竟,大多数东西都不能预防结肠癌 。否定的结论尤其不性感,不论是在医疗领域还是其他 。
而两相抵消,就对我们看到的研究(或者说看不到的)产生了偏倚 。假设你的研究生同学经过另一项追踪调查得出了不同的结论,她发现玩视频游戏的人确实罹患结肠癌的几率较小 。现在就有意思多了!医学期刊要的就是这样的论文,大众媒体、博客写手,还有视频游戏的制作商(他们巴不得在自己产品的包装上标注玩游戏有益身体健康),都在寻找这样的内容 。要不了多久,全美国的虎妈们就会纷纷夺过自己孩子手里的书本,转而逼迫他们玩游戏来“保护”下一代免于癌症困扰了 。
当然,统计学里反复强调的一个论点是,异乎寻常的事情时而发生,这只是概率问题 。如果你进行100次调查,其中有一次很可能会出现纯属无稽的结果——就像玩视频游戏和结肠癌患病率低之间的数据关联 。而问题在于:99次发现玩游戏跟患结肠癌无关的研究都得不到发表,因为它们没有意思,而那一次发现两者有关联的研究却被印刷出来,迎来了众多关注 。偏倚的源头并不在于研究本身,但传达给公众的信息却是偏颇的 。而研读视频游戏和癌症关联的研究者只能发现一篇论文,而这篇论文表明的却是玩视频游戏能预防癌症 。实际上,100项研究里有99项都找不出二者之间有任何关联 。