2008-06-29

    理论的终结:数据洪流让科学方法变得过时(2) - [【我的翻译】]

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://sylviajunior.blogbus.com/logs/23797170.html

    尽管如此,最大的目标却不是广告,而是科学。科学方法基于可检验的假设之上的。大部分的模型,是科学家脑中形成的系统。于是,模型会被检验,并用实验来证实或伪造“世界如何工作”的理论模型。这就是科学家们几百年来一直使用的工作方法。科学家被训练得认识到:关联关系不一定是因果关系,若仅仅是因为XY之间的关联关系,则并不能据此得出结论(这只是巧合)。然而,你必须理解连接这两个变量的潜在因素,一旦你有模型,你就能够自信地连接起两个数据集。数据若没有模型,就只是“噪音”。

     

    但是面对大规模数据,科学家“假设、模型、检验”的方法变得过时了。以物理为例:牛顿模型是近似真相的模型(牛顿模型在原子层面上是错误的,但是依旧有用)。100年前,基于量子力学的统计数据对真相进行了更好的描绘:但是量子力学也只是另一个模型而已,模型都是有缺陷的,模型无疑是对于更复杂的潜在真实的拙劣描述。我们不知道怎样操作那些伪造假设的实验,这就是近几十年物理学研究转向对N维大统一理论(grand unified models)的原因——能量太高,加速器太昂贵,等等。

     

    现在,生物学也向同样的方向发展。我们在学校所教的“显性和隐形基因严格遵循孟德尔法则”的模型已被证明是比牛顿定律更简单的对事实的描述。基因蛋白质交感(gene-protein interactions )和其他实验胚胎学的发现已经动摇了“DNA就是命数“的看法,甚至引入了“环境可以影响遗传特性”这些曾经在基因学上被认定为不可能的事情。

     

    简而言之,我们对生物学学得越透彻,我们发现自己离能解释生物的模型越远。

     

    现在有一个更好的办法。PB允许我们这么说:关联关系就已经够了。我们可以不再去寻找模型,我们能够不依靠假设来分析数据。我们能把数字扔到前所未见的最大计算机集群里,让统计数据找到那些科学所不能告诉我们的模式。

     

    最好的实践例子就是: J. Craig Venter鸟枪基因序列。有了高速序列器(sequencers)和超级计算机来解析它们产生的统计数据, Venter从单细胞体到整个生态系统都进行测序。在2003年,他开始海洋生物的测序,重溯COOK船长的旅行。在2005他开始对空气中的生物测序。他发现了上千种未知细菌和其他生命形式。

     

    如果发现新物种让你想到达尔文和他画的那些雀类,你可能还囿于传统的科学研究方法。Venter几乎不能告诉你任何关于他所发现的物种的信息。他不知道他们长什么样,他们如何生存,或者其他关于他们形态学上的任何信息。他甚至没有他们完整的基因组。他所拥有的只是统计性的”点“:一个与其他基因数据库里序列不同的独特序列,必定属于一个新的物种。而这个序列可能和其他我们熟知的序列关联。在这种情况下,Venter能对这些动物做一些猜测:这些动物利用独特的方法,把阳光转化为能源或者他们继承自某一共有祖先。但除了这些,Venter对于此种生物并不比谷歌对于你的MySpace有更好的模型。这仅仅是数据。可是通过利用谷歌品质计算资源(Google-quality computing resources)进行分析,对于生物前沿知识,Venter懂得比其他与他同时代的人都多。这种思维方法。在二月,国家科学基金宣布,集群探索( Cluster Exploratory 简称CluE ),致力于研究运行大规模分布计算机平台的项目将由谷歌和IBM以及六个试点学校一同进行。这个集群将把扩1600个处理器,大量TB内存,上百TB的硬盘,还有包括GFSIBM Tivoli、谷歌MapReduce的开源版等软件。早期的CluE项目将包括大脑和神经系统的模拟以及其他在湿件和软件之间的生物研究。(注:湿件即除了软件、硬件之外的“件”,即人脑)

     

    学会在这个层次上用“电脑”可能具有挑战性。但是机会是很大的:海量数据的新用处,以及咀嚼这些数据的统计性工具,提供了一个理解世界的新方法。关联关系比因果关系重要,科学甚至能在没有一致模型、统一理论,甚至完全不需要任何解释的情况下进步。

     

    我们没有理由坚持我们的老方法。现在是时候问这一句了:科学能从谷歌那儿学到什么?


    收藏到:Del.icio.us




    引用地址:

日历