Trust？Or Not？民意调查，你信吗？ "

学术研究、民意测验、调查的结果都依赖于一种方式：让某些人回答某些问题，以此来获取一些行为的范例或是预测结果。但是需要询问多少人才能让结果有可信度呢？

文 Adrian Barnett ， Scott Sisson

译 Sara Yang

在大选之前，人们总会听到一些政治家质疑民意调查的声音，他们说:“只有一个投票是值得关心的”，并试图让人们相信这些博人眼球的民意调查和真正大选时的登记投票相比是毫无意义的。

然而，民意调查是非常有必要的，因为它可以快速洞察人们的意图。

为了获得关于大部分人群的准确信息，从巨大的人口中选取少量样本是有效的统计学技巧，也是节约时间和经费的好方法。这种方式可以用于任何需要大规模或者难以测算人口的时候。

案例包括抽样检查工厂产品线的质量控制，统计在秘鲁生活的美洲虎数量，甚至调查统计The Conversation的读者群。

那么，可信的结果需要多大的样本来支撑呢？这个，因事而异。

误差幅度

所有的估算都有一个误差幅度，用来抵消样本和人口数量之间的差距带来的弊端。

比如，最近的一个关于两党倾向性的民意调查显示工党比执政联盟的支持率高2%。

该调查称有1728人参与，最大的样本误差为± 2.4%，这意味着，对工党来说，看起来最合理的胜算是 4.4% (2% 加上 2.4% 的误差幅度)，但是说工党有0.4%的失败率 (2%减去 2.4%)也是合理的。

对于这场激烈的争夺战，我们也许想通过增加样本规模来减少样本误差，但是成本是极其昂贵的。粗略估算，需要2400人的样本来减少±2%的误差，而要将误差减少为± 1%，则需要9600人的大规模样本。

请注意基于样本规模变化而引起的误差变化(±%)，当样本容量超过1000时，通常足以产生一个±3%误差，因此在任何调查中，检查样本大小和误差幅度都至关重要。

数量和质量

只有样本在受到良好组织引导的时候，调查的估算值和误差范围才是有效的。如果取样是带有偏向性的，那么大规模的样本只会让我们对不准确的估算抱有更大的信心。

调查样本经常带有

偏向性

，因为样本毕竟不能等同于全部人口。2017年同性婚姻调查就是一个好例子，该调查拥有12,600,000调查对象，由于老年人很喜欢回复邮件调查这一特性，导致样本中的老年人代表人数明显超出其应有比例。

幸运的是，这种情况并不足以破坏这场事关婚姻平等大业的投票结果，但是伴随着0.03%的极小误差，61.6%参与者支持婚姻平等这一结果，也许并不能准确反映澳大利亚人民的意见。

选取不具代表性的样本事件，也发生在临床试验上，因为出于安全因素的考虑，高危病人经常被排除在实验之外。一项研究表明，94%患有哮喘的人被排除在17个主要的临床试验之外，而这些实验的作用是为医生提供治疗病情的指导手册。

这是一个非常严肃的问题，因为医生需要给所有病人提供医疗建议，但是实验所提供的大量依据往往来自那些更健康的病人。

相类似的，尝试预测一下，订阅Netflix或者Stan的用户会怎样基于其他相似用户的评级对电影进行评价。这些评价很可能是带有偏向性的，例如只有非常喜欢的人才去评价或者不喜欢的人完全懒得予以评论。

对于在线内容推送者来说，解决准确为用户提供电影推荐的问题，是至关重要的。

公众如何评判一个样本的好坏

没有一个简单的规则可以用来判定一个样本的好坏。一般说来，样本规模越大越好，但前提是该调查处于良好的运作中。

使用类似Facebook这样的廉价收集工具，来统计一些非常庞大的样本，很可能高度影响其准确性。而仅有25人参与的小调查却可以做的很有见解，特别是当其一直努力确保调查样本具有代表性，并追踪那些最初不回应的参与者的时候。

澳大利亚新闻委员会

提出了一些针对报道民意调查的

指导意见

，在我们阅读任何调查的时候，都可以用这些问题反问自己:

　　1.参与者是哪里来的? 和全部人口的利益相比，样本是否具有典型代表性?

　　2.有多少参与者拒绝回答？如果只有10%的人回答，那么它可能是一个针对调查主题有强烈情感的非典型样本。(想想那些你乐于回应的调查)。

　　3.调查向参与者支付费用吗？付费将会增加调查的回应率，但也可能会影响受访者的答案。

可悲的是，在媒体报道中，那些包含着令人兴奋结果的调查往往缺乏这些细节，这种情况在论文发表中也是屡见不鲜。

被调查者是可以通过

被引导

而给出理想答案的。

例如，在一项关于再现性危机的自然调查中，1576名研究人员被问到这一问题：

下列关于科学界中的“再现性危机”的陈述，你同意哪个?

1.有重大的再现性危机

2.有轻微的再现性危机

3.不存在再现性危机

4.不知道

大多数人(52%)选择“是”，也就是说认为有重大危机，7%的受访者回答“不知道”，只有3%的选择“不存在”。

这就使得什么是“轻微的危机”成为一个非常重要的问题。选择这个选项的人达到了38%，他们回答轻微，是因为这个选项接近“不存在”或“不知道”这一类别，还是因为这一选项更倾向于有重大危机？我们并不清楚。

这里的重点是，人们有两种“是”的选项,而只有一个“否”的选项。然而，这项研究过去是，也仍将是作为印证危机存在的强有力证据。

总体来说，

阅读任何调查的结果最好都秉持着善意的怀疑态度

。针对我们这两个统计学家作者所做的调查显示：我们100%的赞同这句话。

END

本译文仅用于学习和交流目的。非商业转载请注明译者、出处，并保留文章在译言的完整链接。商业合作请联系 editor@yeeyan.com，参考原文：

http://theconversation.com/a-survey-needs-to-involve-how-many-people-before-im-convinced-96470

本文基于创作共同协议（BY-NC），在译言发布。

往期内容回顾：

讲真！70年前，multilingualism是脏话

离家太久，还回的去吗？

管理怪圈：聪明人可能是猪队友？

译言给你的礼物

译言书店图书大促

社交大礼包 8折

点击“阅读原文”，购买图书。