数据洪流中的科学方法( 二 )


谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中 。据说谷歌的研究主管诺维格(PeterNorvig)曾在2008年3月的一次技术会议上,将安德森文章开头所引的博克斯的话改成了“所有模型都是错误的,没有它们你也能日益成功” 。谷歌这种新思路给了安德森很大的启发 。他做出了一个大胆的预测:谷歌的新思路不仅适用于商业,而且会越来越多地渗透到科学上,并如他文章标题所说的那样,最终取代现有的科学方法 。在他看来,科学才是这种新思路的“大目标”(bigtarget) 。
我们知道,科学研究的常规模式是从实验数据或观测数据中提出假设、模型或理论,然后用新的实验或观测来检验它们 。安德森认为这种模式在信息时代的数据洪流中将会过时,今后人们只需象谷歌那样直接从大量数据的统计关联中得出结论就行了 。用他的话说:“关联就已足够,我们可以停止寻找模型” 。按照安德森的设想,我们只需将大量数据扔进巨型计算机,让它运用统计算法去发现那些科学所无法发现的关联 。那些关联将取代因果关系,科学将摆脱模型和理论而继续前进 。
如果安德森的设想成为现实,那么不仅今天的科学方法将成为历史,甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在,因为我们所需要的将只是能建造和维护计算机的技术人员,以及懂得统计学原理的编程人员,我们将再也不需要理论 。这样的前景对科学家来说无疑是陌生的,但安德森认为这是信息时代带给我们的一种认识世界的全新方法,它展示了巨大的机会,科学家们不应墨守传统的科学方法,而应该自问:科学能从谷歌中学到什么?
安德森对科学理论及科学方法的全面唱衰所带来的争议性是显而易见的 。他的文章一经发表,立刻遭到了很多人的批评,有人甚至迁怒于《连线》杂志(谁让安德森是主编呢?) 。比如卡内基梅隆大学(CarnegieMellowUniversity)的一位助理教授在看过安德森的文章后,把自己前不久接受《连线》杂志的采访称为是一个错误,而且是在试图打发“等候室时间”(waiting-roomtime)时所犯的错误,言下之意,哪怕是在等候室里无所事事的时候,也不值得为《连线》杂志浪费时间 。有意思的是,这位助理教授原本是物理学博士,目前则在统计系工作,如果安德森的观点能够成立,他的前景倒是蛮光明的 。
当然,对更多的人来说,安德森的观点不过是一家之说,赞成也好,反对也罢,都可以平心静气地进行分析 。我们感兴趣的问题是:安德森的观点到底能不能成立?或者最低限度说,它有道理吗?在本文接下来的篇幅里,我们就来稍稍分析一下 。如我们在前面所介绍,安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路,从某种意义上讲,他将这些谷歌技术当成了未来科学方法的范例 。既然如此,就让我们先以谷歌翻译为例考察一下,看看它是否有可能承载安德森赋予它们的重任 。
三.统计方法与高级密码
常言道:是骡子是马,拉出来遛遛 。考察谷歌翻译的最佳办法当然是检验它的翻译效果 。我们随便举几个例子 。其中最简单的例子是翻译安德森这篇文章的标题“理论的终结:数据洪流让科学方法过时”,谷歌翻译给出的结果是“理论的终结:数据洪水滔天使废弃的科学方法” 。这个例子虽然简单,却很清楚地体现了谷歌翻译的特点及缺陷 。如我们在上文中所说,谷歌翻译的特点是以统计关联而非语法为基础,上述译文的不通顺很清楚地显示了这一特点带来的缺陷 。
谷歌翻译的这种缺陷在更长的句子中显得更为清楚,比如牛顿(IsaacNewton)的那段名言:
我不知道我在别人眼里是怎样的,但对我自己来说我只不过象是一个在海边玩耍的男孩,因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋,却全然没有发现展现在我面前的伟大的真理海洋 。
用谷歌翻译的结果是[注四]:
【数据洪流中的科学方法】 我不知道我可能会出现的世界,而是为了自己,我似乎已经不仅就像一个男孩玩海上岸上,和挪用自己现在然后找到平滑卵石或比普通漂亮外壳,而大洋的真相躺在我面前的所有未被发现 。
要看懂这种比绕口令还拗口的翻译是需要毅力的 。谷歌翻译能作为未来科学方法的范例吗?答案应该是不言而喻的 。
安德森所举的谷歌技术的另一个例子,即谷歌广告,也具有非常显著的缺陷,事实上,利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密 。谷歌技术当然不无优越之处,比如它具有所谓的统计学习(statisticallearning)功能(细心的网民会注意到,不同时候用谷歌做同样的事情得到的结果通常会有一定的差异),但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性,这种模糊性虽不足以妨碍商业上的成功,但它与科学理论之间的差距是巨大的,并且是本质性的 。