2008-06-28

    理论的终结:数据洪流让科学方法变得过时(1) - [【我的翻译】]

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://sylviajunior.blogbus.com/logs/23757375.html

    (作者:克里森 安德森 译者:兮兮)

    “所有模型都是错的,但是有些是有用的。”30年前,统计学家George Box这么说。他说的是正确的。但是当时我们能有什么选择呢?只有模型,从宇宙哲学方程到人类行为原理的模型,才能连续的(尽管是不完美的)解释我们周围的世界。现在不同了。今天的公司(如谷歌)“生长”在大规模充裕数据的时代,它们不需要错误的模型。事实上,它们根本不需要模型。

     

    60年前,数字化电脑让信息变得易读。20年前,英特网让信息变得易接触。10年前,第一个搜索引擎爬虫让信息变成一个单独的数据库。现在,诸如Google之类的公司正在经历历史上最标准的时代,并将这些庞大文集作为人类社会图书馆。他们都是PETABYTE时代的产物。(注:1 PETABYTE=1024 TB

     

    PETABYTE时代是与众不同的,因为“更多”是一种与众不同。KB级的信息存储在软盘里,MB级的信息存储在硬盘里,TB级的信息存储在硬盘阵列(disk arrays)里,PB级的信息存储在云(cloud)里。如果我们沿着信息存储进化的路线探寻,从类似文件夹,到类似文件柜,到类似图书馆,再到……在PB级别,我们已经想不出有组织的类比了。

     

    PB级别,信息不是简单三维、四维的分类和顺序,而是有维度不可知的统计数据。它需要一种完全不同的方法,一个需要我们放松(lose)对数据的约束,而将其视为能被形象化为一个整体的东西。它让我们先从数学角度看数据,然后为数据设立一个环境。例如,谷歌征服了广告世界,仅仅是通过应用了数学:它不假装自己了解文化和广告惯例知识。它仅仅是做了一个假设:更好的数据加上更好的分析工具将会赢得世界。而谷歌是正确的。

     

    谷歌的奠基哲学就是“我们不知道为什么这张网页比那张网页好”:只要引入链接的统计数据说明它好就行了,并不需要语义上或者是因果关系的分析。这就是谷歌不需要掌握一门语言就能翻译的原因(只要给以合适的文集数据,对于谷歌来说,把外星语(原文是Klingon,克林贡语)翻译成波斯语就和把法语翻译成德语一样容易)。这也是谷歌能在没有任何知识、对广告内容没有任何了解的情况下,能把广告和内容融合得这么好的原因。今年三月的O'Reilly 前沿技术会议( O'Reilly Emerging Technology Conference,亦有人译作新技术峰会)上Peter Norvig(谷歌的研究指导) George Box的座右铭进行了更新:所有模型都是错误的,愈加地,你能在没有模型的情况下成功。("All models are wrong, and increasingly you can succeed without them."

     

    这是一个 大量数据和应用数学取代其他工具的世界。从语言学、社会学的人类行为原理里解脱吧。忘记分类,存在论和哲学吧,谁又能知道为什么人们要做他们做的事情?重要的是,他们“做事”的行为,而我们可以空前“高保真”地追踪并评估这一行为。拥有了足够的数据,数字也能说话。

    源英文文档 <http://www.wired.com/science/discoveries/magazine/16-07/pb_theory>


    收藏到:Del.icio.us




    引用地址:

日历