竹筏还是灯塔——数据洪流中的科学方法

来源：互联网发布：僵尸知乎编辑：程序博客网时间：2024/04/27 14:03

转自 http://songshuhui.net/archives/82772

一.信息爆炸的时代

我最喜爱的作家之一是美国科幻及科普作家阿西莫夫(I.Asimov)，他一生出版过约500本书——恐怕比我一生将会发表的文章数还多。我念中学时曾读过他的很多书，其中有一本叫作《数的趣谈》^[^注一^]，而那其中有篇文章叫做“忘掉它！”(ForgetIt!)，我到现在还没忘掉。

QQ20130704-1 阿西莫夫在那篇文章的开头引用了一本生物教科书的前言片断，大意是说我们的科学知识每隔一代就会增加五倍，以生物学为例，2000年的知识将是1900年的100倍。这段话让阿西莫夫深感不安，甚至感到“世界好象在我身边崩溃了”。为什么呢？因为在阿西莫夫看来，象他这样快速写作的科普作家，几乎是在职业性地追逐着科学的发展，可在一个信息爆炸的时代里，他有可能追得上形势吗？

阿西莫夫在那篇文章中为自己的问题找到了答案。不过，我们先不去看他的答案。阿西莫夫那篇文章发表于1964年，在那之前的1961年，“信息爆炸”(informationexplosion)这一用语首次出现在了IBM公司的一则广告中。自那以后，信息爆炸一直拨动着人们的心弦。也许很多人都会产生与阿西莫夫同样的担忧：在一个信息爆炸的时代里，我有可能追得上形势吗？

如果我们把阿西莫夫时代的信息爆炸比作常规爆炸，那么由互联网及信息数字化所带来的当代信息爆炸恐怕就是核爆炸了。因为常规的信息爆炸只是书本知识的爆炸，而能在书本上占据一席之地的人毕竟是不多的。但互联网时代几乎让每个人都拥有了发布信息的能力，由此带来信息爆炸无疑要惊人得多。据一家美国研究机构统计^[^注二^]，截至2007年，人类拥有的数字化信息(文字和音像都算在内)约有225000亿亿比特(2.25×10²¹bits)，约合15000亿亿个汉字，而且这一数字几乎每隔5年就增加一个数量级。在这些信息中，约百分之七十是个人创造的。以时下最流行的博客来说，其数量在过去几年里几乎每6个月就翻一番。到2008年底，仅中国网民开设博客者就超过了1.6亿人^[^注三^]。

二.谷歌的新思路

信息爆炸——尤其是互联网上的信息爆炸——带来了一系列深刻的社会变化，也使越来越多的人对信息爆炸的前景进行着思考。不过与阿西莫夫当年那种忧虑性的思考不同，当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代，且对其前景作出了与前人截然不同的设想。2008年6月，美国的一位技术杂志主编发表了一篇标新立异的文章，题目为“理论的终结：数据洪流让科学方法过时”(TheEndofTheory:TheDataDelugeMakestheScientificMethodObsolete)。

这份杂志名为《连线》(Wired)，是一份以探讨技术影响力为主题的杂志，创刊于1993年，订阅人数约在50万到100万之间。而撰写那篇文章的主编名叫安德森(ChrisAnderson)，是一位经验丰富的传媒人士，曾在《自然》(Nature)、《科学》(Science)及《经济学家》(TheEconomist)等著名刊物任职。安德森担任主编期间，《连线》杂志曾多次获奖，而安德森本人也在2005年获得过一项年度最佳主编奖。

430px-Etech05_Chris

【安德森 (Chris Anderson) 图片出处：维基百科】

安德森这篇文章的观点标新立异不说，就连标题也相当耸人听闻，不仅预言科学理论将会终结，而且宣称科学方法将会过时。他的这一奇异想法从何而来呢？我们来简单介绍一下他那篇文章的思路。安德森的文章以著名统计学家博克斯(GeorgeBox)的一句引文作为开篇，那句引文是：“所有模型都是错误的，但有些是有用的”。安德森提出，虽然人们长期以来一直在用模型——比如宇宙学模型——来解释现象，但最近这些年里，象谷歌(Google)这样扎根于信息时代最前沿的公司已经采用了新的思路。

安德森举了谷歌翻译及谷歌广告作为例子。我们知道，常规的机器翻译是通过一系列静态的规则，比如字典及语法规则，来把握文章的内容。但谷歌翻译另辟蹊径，借助数以亿计来自不同语言的语句之间的统计关联来做翻译。这种翻译的最大特点是无需知道被翻译文字的含义，而只关心两种语言之间的统计关联。类似地，使谷歌获得巨大利润的谷歌广告——那些当你搜索东西时出现在结果右侧的小广告——也是建立在统计关联之上的。谷歌既不在乎你搜索的东西的含义，也不关心它所显示的广告是什么，它之所以列出那些广告，完全是因为统计关联表明它们与你搜索的东西有关。

谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中。据说谷歌的研究主管诺维格(PeterNorvig)曾在2008年3月的一次技术会议上，将安德森文章开头所引的博克斯的话改成了“所有模型都是错误的，没有它们你也能日益成功”。谷歌这种新思路给了安德森很大的启发。他做出了一个大胆的预测：谷歌的新思路不仅适用于商业，而且会越来越多地渗透到科学上，并如他文章标题所说的那样，最终取代现有的科学方法。在他看来，科学才是这种新思路的“大目标”(bigtarget)。

我们知道，科学研究的常规模式是从实验数据或观测数据中提出假设、模型或理论，然后用新的实验或观测来检验它们。安德森认为这种模式在信息时代的数据洪流中将会过时，今后人们只需象谷歌那样直接从大量数据的统计关联中得出结论就行了。用他的话说：“关联就已足够，我们可以停止寻找模型”。按照安德森的设想，我们只需将大量数据扔进巨型计算机，让它运用统计算法去发现那些科学所无法发现的关联。那些关联将取代因果关系，科学将摆脱模型和理论而继续前进。

如果安德森的设想成为现实，那么不仅今天的科学方法将成为历史，甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在，因为我们所需要的将只是能建造和维护计算机的技术人员，以及懂得统计学原理的编程人员，我们将再也不需要理论。这样的前景对科学家来说无疑是陌生的，但安德森认为这是信息时代带给我们的一种认识世界的全新方法，它展示了巨大的机会，科学家们不应墨守传统的科学方法，而应该自问：科学能从谷歌中学到什么？

安德森对科学理论及科学方法的全面唱衰所带来的争议性是显而易见的。他的文章一经发表，立刻遭到了很多人的批评，有人甚至迁怒于《连线》杂志(谁让安德森是主编呢？)。比如卡内基梅隆大学(CarnegieMellowUniversity)的一位助理教授在看过安德森的文章后，把自己前不久接受《连线》杂志的采访称为是一个错误，而且是在试图打发“等候室时间”(waiting-roomtime)时所犯的错误，言下之意，哪怕是在等候室里无所事事的时候，也不值得为《连线》杂志浪费时间。有意思的是，这位助理教授原本是物理学博士，目前则在统计系工作，如果安德森的观点能够成立，他的前景倒是蛮光明的。

当然，对更多的人来说，安德森的观点不过是一家之说，赞成也好，反对也罢，都可以平心静气地进行分析。我们感兴趣的问题是：安德森的观点到底能不能成立？或者最低限度说，它有道理吗？在本文接下来的篇幅里，我们就来稍稍分析一下。如我们在前面所介绍，安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路，从某种意义上讲，他将这些谷歌技术当成了未来科学方法的范例。既然如此，就让我们先以谷歌翻译为例考察一下，看看它是否有可能承载安德森赋予它们的重任。

三.统计方法与高级密码

常言道：是骡子是马，拉出来遛遛。考察谷歌翻译的最佳办法当然是检验它的翻译效果。我们随便举几个例子。其中最简单的例子是翻译安德森这篇文章的标题“理论的终结：数据洪流让科学方法过时”，谷歌翻译给出的结果是“理论的终结：数据洪水滔天使废弃的科学方法”。这个例子虽然简单，却很清楚地体现了谷歌翻译的特点及缺陷。如我们在上文中所说，谷歌翻译的特点是以统计关联而非语法为基础，上述译文的不通顺很清楚地显示了这一特点带来的缺陷。

谷歌翻译的这种缺陷在更长的句子中显得更为清楚，比如牛顿(IsaacNewton)的那段名言：

我不知道我在别人眼里是怎样的，但对我自己来说我只不过象是一个在海边玩耍的男孩，因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋，却全然没有发现展现在我面前的伟大的真理海洋。

用谷歌翻译的结果是^[^注四^]：

我不知道我可能会出现的世界，而是为了自己，我似乎已经不仅就像一个男孩玩海上岸上，和挪用自己现在然后找到平滑卵石或比普通漂亮外壳，而大洋的真相躺在我面前的所有未被发现。

要看懂这种比绕口令还拗口的翻译是需要毅力的。谷歌翻译能作为未来科学方法的范例吗？答案应该是不言而喻的。

安德森所举的谷歌技术的另一个例子，即谷歌广告，也具有非常显著的缺陷，事实上，利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。谷歌技术当然不无优越之处，比如它具有所谓的统计学习(statisticallearning)功能(细心的网民会注意到，不同时候用谷歌做同样的事情得到的结果通常会有一定的差异)，但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性，这种模糊性虽不足以妨碍商业上的成功，但它与科学理论之间的差距是巨大的，并且是本质性的。

如果我们稍稍深入地思考一下，就会发现谷歌的思路人们在其它场合也曾用过。举个例子来说，密码学中有一种简单的密码叫做置换密码(substitutioncipher)，它是通过对字母或其它文字单元进行置换来达到加密的目的。破译这种密码的主要途径就是统计分析。比如在英文中字母e是出现频率最高的，假如我们截获了一份经过字母置换加密的文件，我们就可以对文件中各符号的使用频率进行统计，其中使用频率最高的符号就很可能代表字母e。对其它字母也可如法炮制，这种方法类似于谷歌翻译。但密码学上的经验告诉我们，单纯使用统计方法是很难完全破译一份密码的，通常你会碰对一些字母或文字单元，就象谷歌翻译会碰对一些单词一样，但完整的破译往往需要辅以更仔细的分析和微调。更重要的是，这种方法只能破译象置换密码那样初级的密码，对于更复杂的密码则完全无济于事。

科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码，但这种密码显然不象置换密码那样简单，因而绝不可能通过单纯的统计分析来破译。积累足够多有关行星运动的数据，我们也许能发现开普勒定律，但无论积累多少数据，我们也不可能依靠单纯的统计分析得到象爱因斯坦的广义相对论那样的理论。事实上，单纯的统计分析至多能够知其然，却无法知其所以然，它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动。科学是一项需要高度创造力的工作，科学上的很多成果，仅凭实验数据、发达的计算机和统计分析是永远也得不到的，这就好比用破译置换密码的方法永远也破译不了更高级的密码。

四.数据洪流中的灯塔

谷歌新思路的另一个问题，是不可避免地受到大量无效信息的干扰。这一点想必每位网民都有自己的切身体会，互联网既是信息库，也是垃圾场，数据洪流必然携带泥沙。怎么办呢？让我们回过头来看看本文开头提到过的阿西莫夫为自己对信息时代的担忧找到的答案。那答案就是他那篇文章的标题：忘掉它！忘掉什么呢？忘掉那些无效信息。这位智商高达160的著名作家认为，只要我们能足够有效地忘掉所有的无效信息，信息爆炸就远没有人们想象的那样可怕。

如果数据洪流真的如安德森设想的那样成为未来科学研究的主战场，那么对未来的研究者来说至关重要的一点就是阿西莫夫所说的忘掉无效信息，或者说去除数据洪流中的泥沙。要想做到这一点，首先要能识别无效信息，而这种识别离不开模型或理论，甚至它本身就有可能是一种模型或理论。如果未来的科学研究真的摒弃了模型或理论，而只关心数据之间的关联，那它在泥沙俱下的数据洪流中不仅会遇到谷歌翻译与谷歌广告已经遇到过的问题，甚至还可能产生出一些荒谬的结果，比如象很多伪科学人士所热衷的那样把金字塔的高度(曾经为147米)与日地距离(1.49亿公里)联系起来，把金字塔的底边周长(36560英寸)与一年的天数(365.2)联系在一起。这种纯粹的数值巧合在科学研究单纯依赖于数据分析的情形下将能够轻易地登堂入室，混淆于科学成果之中。

我们曾经提到，安德森在文章开头引用了博克斯的话：“所有模型都是错误的，但有些是有用的”，他引用这句话显然是要为自己的观点作注解。可惜他张冠李戴了，博克斯是一位统计学家，他所说的模型并非泛指科学理论或科学模型，而是特指统计模型。因此博克斯的话与其说是能为安德森的观点作注解，不如说恰恰是拆了他的台。

不过另一方面，统计分析虽绝不可能如安德森预言的那样成为一统天下的科学方法，但它作为科学方法的一种，在过去、现在及将来都将发挥积极的作用，这一点任何人也不会否认。正如博克斯的后半句话所说的：有些模型是有用的。在数据总量空前膨胀的信息时代，统计分析的作用有可能得到局部的加强；在某些理论性不很强的领域中，它甚至有可能成为主要方法，从这些意义上讲，安德森的观点虽失之偏颇，却并非完全脱靶。不过我们可以肯定的是，面对滚滚而来的数字洪流，科学方法绝不是即将被冲离视野的竹筏，相反，它是帮助我们在洪流中辨明方向，看清未来的灯塔。

注释

该书的英文名是《AsimovonNumbers》，确切译名应该是《阿西莫夫论数》，它汇集了阿西莫夫为《TheMagzineofFantasyandScienceFiction》撰写的17篇科学专栏文章。
这家公司是InternationalDataCorporation(IDC)，该统计报告发布于2008年3月，标题为“TheDiverseandExplodingDigitalUniverse”。
该数据来自中国互联网络信息中心(CNNIC)2009年初发布的第23次互联网报告。
这段话的英文是：“IdonotknowwhatImayappeartotheworld,buttomyselfIseemtohavebeenonlylikeaboyplayingonthesea-shore,anddivertingmyselfinnowandthenfindingasmootherpebbleoraprettiershellthanordinary,whilstthegreatoceanoftruthlayallundiscoveredbeforeme.”。需要提醒读者的是，不同时候使用谷歌翻译得到的结果会有一定的差异，本文引述的是作者写作本文之时使用谷歌翻译得到的结果。