赤裸裸的统计学:5大常见统计偏倚( 二 )


回忆偏倚
记忆是件奇妙的东西——尽管不能总算作优质数据的来源 。人类天生就有冲动将现状理解成过去发生的事情合乎逻辑的结果,也就是因果关系 。问题出在当我们试图去解释某些当前特别好或者特别糟糕的结果时,记忆就会变得“系统性的不堪一击” 。例如一项研究饮食和癌症之间的关系的研究 。1993年,一名哈佛大学的研究者构建了一组罹患乳腺癌的妇女和没有被诊断出癌症的年龄匹配组女性的数据 。研究人员分别询问了这两组女性的早年饮食习惯 。研究得出了清晰的结论:患有乳腺癌的妇女在年轻时有更显著的可能拥有高脂肪的饮食 。
哈,不过,这实际上不是在研究饮食习惯对罹患癌症几率有什么影响 。这项研究真正调查的是患上癌症如何影响了女性对自己早年饮食习惯的记忆 。所有参与这项研究的女性都在多年以前,在任何人都没有被诊断患有癌症的时候,填写了关于其饮食习惯的调查问卷 。研究的结果十分惊人,患有乳腺癌的妇女回想自己过去饮食摄入的脂肪的含量比她们实际消耗的要多得多;没有患癌症的女性则没有出现这种情况 。
《纽约时报杂志》在描述这种记忆偏倚的隐秘本质时称:
“罹患乳腺癌不仅改变了一位女性的当下和未来;它连她的过去也改变了 。患有乳腺癌的女性(无意识地)认为高脂饮食可能是她们患病的易感原因,并且(无意识地)认为自己过去有高脂的饮食习惯 。对于任何了解这种耻辱病的历史的人而言,这一模式都熟悉得令人悲伤:和她们之前成千上万的女性一样,这些女性在她们自己的记忆里寻找原因,并将这个原因放置在记忆里 。”
追踪研究之所以比横向研究(cross-sectional studies)更可靠,原因之一就在于避免了回忆偏倚 。在追踪研究里,数据是同时采集的 。在5岁的时候,参与者会被问及他对学校的态度 。然后,再过13年,我们可以重访参与者,看他是否高中辍学 。而在横向研究中,所有的数据都在同一时间点采集,研究者必须询问18岁的高中辍学生他5岁时对学校有何看法,而这一信息固然便是不怎么可靠的 。
存活者误差
假设一名高中校长报告说,学生中的一组特定人群在4年中(编注:美国高中有4年)考试成绩稳步上升 。这批人高二的得分比他们在高一时的成绩好 。高三那年的分数更好,高四达到了最好 。我们假定不存在作弊的情况,也没有任何创造性地运用描述性的统计数据 。无论用什么评价标准,这批学生每一年都比前一年做得更好:平均数、中位数、学生在年级水平的百分比等等 。你会(A)提名这所学校的领导为“年度最佳校长”还是(B)要求提供更多的数据?
如果你有一屋子高矮不齐的人,强迫最矮的那个离开房间会使整个房间的平均身高上升,但这样做并不会使任何人的身高变高 。
我的话就会选(B) 。我嗅到了存活者误差的猫腻,这种情况下样本中去掉了一些或很多观测数据,以至于改变了整个剩下的观测结果,因而任何基于剩余观测数据所做的分析也受了影响 。假设我们的校长真不是个好人:他学校里的学生啥也没学到;每年都有半数人辍学 。不过,这在数学的考试分数上面看起来很是漂亮——但没有任何一名学生实际上考得更好 。有理可测,学得最差的学生(也是考试分数最低的学生)最有可能辍学,那么考试分数的平均分会随着更多学生辍学而稳步上升 。(如果你有一屋子高矮不齐的人,强迫最矮的那个离开房间会使整个房间的平均身高上升,但这样做并不会使任何人的身高变高 。)
健康用户误差
每天按时吃维生素片的人更有可能身体健康——他们是每天都按时吃维生素的人!而至于维生素是否真的有益健康这又另当别论了 。【