• 2008-11-25

    英文格言之二 - [【我的翻译】]

    (一)
    "The past cannot be changed.
    The future is yet in your power."
    - Hugh White
    往事长已矣,来者尤可追……

    (二)
    "You can't cross a sea by merely
    staring into the water."
    - Rabindranath Tagore
    望洋兴叹而不乘风破浪着人,必不能穿越大洋。

    (三)
    "The only limit to our realization of
    tomorrow will be our doubts of today."
    - Franklin D. Roosevelt
    今日的顾虑将会是明日成功的唯一障碍。

    (四)
    "Long-range goals keep you from being
    frustrated by short-term failures."
    - James Cash Penney
    定一个长期的目标能保护你不因短期失败而倾颓。

    (五)
    "Life is either a daring adventure or nothing."
    - Helen Keller
    生命若不是勇敢的冒险便是徒然无物。

    (六)
    "When life's problems seem overwhelming, look around and see what other people are coping with. You may consider yourself fortunate."
    - Ann Landers
    当生命充满困难,看看周遭的朋友的境遇,你就会发现你自己其实很幸运。

    (七)
    "The indispensable first step to getting the things you want out of life is this:
    decide what you want."
    - Ben Stein
    如果你意欲从生命中索取你想要之物,不可或缺的一步是:知道你想要什么。


  • 2008-09-18

    品牌营销:把网站当成客户研究工具(三)(完) - [【我的翻译】]

    原作:Christopher Angus 翻译:路宛兮@译言


    http://www.yeeyan.com/articles/view/sylviaangel/14143


    错误的方法:从商业角度进行营销


    很多情况下,品牌都不知道他们正在“扰民”,只有在他们对客户了如指掌的时候他们才意识到错误。当公司做以下事情时,人们会不乐意:

    • 打断了他们的任务
    • 通过弹出式问卷骚扰他们
    • 在不合适的场合问太多个人信息而不提供回报


    案例一:问太多透露个人信息的问题

     

    当客户或者潜在客户正要去做某事的时候,避免在此时收集信息尤为重要。图10的网站问了一些在注册网站时不该问的问题。在长串任务中问如此细节问题会让人感到恼火。

    AKFigure10.jpg


    图10 当潜在客户注册时,网站却在收集市场信息


     

    案例二:阻碍性的弹出调查

     

    网站最不应该做的事情就是在潜在客户和客户进入网站的时候弹出一个调查。客户进入网站来是为了看内容——寻找他们想要的信息。明确地说,我们不建议做图11所示的这种弹出式调查。

     

    AKFigure11.jpg

     

    图11:一个网站在客户打开主页时弹出调查


     

    案例三:被动反馈链接

     

    像大多数网站一样,图12里的网站通过页脚的链接来向顾客寻求反馈。像反馈表这样的被动反馈是用来收集信息的最弱的方法。一个更好的办法是:用小测验这样的交互性方法,提供一个交互平台。反馈表是被动的。客户不会去点击他们不感兴趣的东西。

     

    AKFigure12.jpg


    图12— 一个在页脚放被动反馈链接的网站


     

    不可宽恕的罪行:混淆两种营销手段


    现在大多数的网站都有在线做营销和客户研究的需求。不幸地是,有些公司却想:“那么我们省点钱吧。我们可以用自己的网页来收集信息、并同时进行产品和服务的营销!为什么不行呢?这是双赢的呀!” 他们错了!


    用微妙而诱惑的方法收集信息提供了一个积极的前进道路。逼迫潜在客户和客户给你信息,只能让们在完成目标任务时效率低下。这样做降低了他们的速度,并让他们感到反感。

     

     

    结论:显露中的趋势


    看看上文中的例子,你会清晰地了解当今背景下进客户研究中显露出来的趋势。因为公司的利润正在越来越多的来自于世界不同地区和不同类型的受众,所以很多品牌逐渐意识到通过在线媒体进行客户研究的重要性。


    其中一些潜在的因素有:


    • 行为上的: 当收集信息时,你也同时可以捕捉潜在客户和客户的在线行为。目标行为上的趋势是所有趋势的关键。
    • 人口统计学上的:客户研究和人口统计学是所有成功客户关系中的关键因素。通过人口统计学资料来帮助客户得到他们想要的东西,能使得公司更好的了解他们。
    • 情感上的:当吸引潜在客户时,这是最重要的趋势。把一个潜在客户转化成忠诚客户,就要迎合他们的情感需求,这样才能让品牌经营下去,让利润翻滚。


    这个循环图(见图13)反映了客户满意的所有步骤。

     

    AKFigure13.jpg

    图13 客户与潜在客户认知的品牌因素循环

     


     

    通过这个方法,品牌就能建立信任,进而带来可持续发展和欢乐。

    我想要感谢MindTree全体成员,因为他们花了很多时间来让我们完成这篇文章,谢谢你们!

     

    参考文献:

    BC3 Strategies. “Experiential Branding: An Introduction.” Whitepaper, 2006. Retrieved on August 3, 2008.

    Lazzaro, Nicole. “Why We Play Games: Four Keys to More Emotion Without Story.” XEODesign, Inc., 2004. Retrieved on August 3, 2008.

    Wright, Kevin B. “ResearchingInternet-Based Populations: Advantages and Disadvantages of OnlineSurvey Research, Online Questionnaire Authoring Software Packages, andWeb Survey Services. Journal of Computer-Mediated Communication, 2005. Retrieved on August 3, 
  • 2008-09-13

    品牌营销:把网站当成客户研究工具(二) - [【我的翻译】]

    原作:Christopher Angus 翻译:路宛兮@译言


    http://www.yeeyan.com/articles/view/sylviaangel/13959


    现在公司是怎样在网上做用户研究的?

    让我们来看看网上用户研究的实践吧。一些网站正确的实施了用户研究,而另一些则没有。

    正确方法:从客户的角度进行营销

    在网站做客户研究的正确方法是: 不要过多打扰客户,并且多多和你的潜在客户及顾客交流。客户所需要的是:

     

    •    * 界入和互动(engagement and interaction)
    •    * 主观上的娱乐 (subjective pleasure)
    •    * 好处 (benefits)
    •    * 关系管理 (relationship management)

     

    案例一:纽约时报


    纽约时报在注册过程中很好地卖了自己的新闻(如图片2)这可以帮助潜在客户获得“这个网站卖什么”的信息;与此同时,公司得到了顾客的EMAIL地址。这个小技巧既不扰民又让用户参与到了其中。

     

    AKFigure2.jpg

    图2:纽约时报通过email销售自己的服务

     

     

    案例二:多芬

    多芬让客户参与到小测试之中,这让互动变得不那么扰民。这样,他们在收集网络信息的同时也进行了广告促销。图为多芬通过问卷调查来进行广告活动。

     

    AKFigure3.jpg

     

     

    案例三:Sunsilk

    如图4,Sunsilk用“ 在线专家” 来获得客户信息。客户可以问特定问题,专家在线解答。这个有效的小技巧促使顾客用个人信息来交换专家的回复。

     

    AKFigure4.jpg

    图4,Sunsilk用来收集客户信息的在线专家。

     

     

    案例四:Sunsilk的另一个方法

    Sunsilk通过把顾客和他的朋友、家人也卷入的方法与其建立情感联系。这是个绝佳方法。很多其他品牌只是问顾客要个人信息,却不和客户建立任何情感联系。看看图5里面他们的广告语吧。对于这个品牌的受众来说真是太合适了。

     

    AKFigure5.jpg

    图5 Sunsilk通过情感需要来与客户建立联系。

     

     

    案例五:LinkedIn

    著名的社会化网络LinkedIn用了一个聪明的行为技术来使它能在长期渐渐了解顾客。这个网络应用以跟踪用户的在线行为来建立客户关系,如图6.

     

    AKFigure6.jpg

    图6 LinkedIn 通过掌握使用行为来吸引顾客并且深入地了解他们。

     

     

     

    案例六、MySpace

    福克斯交互媒体(Fox Interactive Media)在策略上致力于通过社会化网络MySpace来了解他们的用户。如图7.他们经常追踪客户行为,通过了解和分析在线使用情况来使公司受益。

     

    AKFigure7.jpg

    图7 - MySpace,一项社会化网络服务

     

     

    案例七:耐克

    耐克允许顾客在网站上互动,这使得观察更为方便。这是了解顾客对品牌真实想法的最好方法。耐克提供了一个在线论坛(见图8)持续的交互帮助这个品牌收集和理解客户的 直接反馈。比起论坛来,反馈表格有时会有些“侵略性”(intrusive)却没有“介入性”(engaging)。而论坛则能够让客户持续进行反馈,并得到公司的在线回复。

    AKFigure8.jpg

     

    图8- 耐克提供了一个在线论坛,从中可以了解它的客户。

     


    案例八:问卷山(Survey Mountain)

    “ 给我钱!” 想要让顾客完成问卷但是不给点奖励通常是没用的。人们需要知道:他们能从中得到什么,以金钱回报会是十分有效的方法。图9显示Survey Mountain使用这个策略来接近顾客。

     

    AKFigure9.jpg

    图9-Survey Mountain引诱顾客填写问卷。

  • 2008-09-09

    品牌营销:把网站当成客户研究工具(一) - [【我的翻译】]

    原作:Christopher Angus 翻译:路宛兮@译言


    http://www.yeeyan.com/articles/view/sylviaangel/13655


    导语:

        随着公司把业务搬到线上,因特网成了一块肥肉。我们都知道这个道理:你在网上开个“展台”、卖好你的品牌,你就能赚钱。但回头想,虽然我们是在网上卖品牌,但是怎样才能卖得好确是一个挑战。如果想做得好,你要记住以下几点:


    * 客户研究是创造盈余的重要因素,所以客户研究必须正确实施 —— 在正确的地点和正确的时间。

    * 网络中介不是获得用户信息的唯一方法。

    * 认识到潜在趋势——行为上的、人口统计上的、情感上的——可以帮助公司有策略地发展。


    ___________________________________________________________________________


    品牌应该做些什么?

    品牌应该流露出自信,它应该反映它的产品,它应该诠释出它的受众提供的产品的真实内涵。



    品牌是一个能实施明确功能的“虚拟人”。你建立品牌的根据是“它是什么”和“它应该是什么”。人们通过看这个“人”——解读品牌——来定义或认知它的价值。品牌总是有中心的、不断的,坚韧地向着一个目标,并致力于获得全胜。



    看看网络世界,一个品牌的目标是所有权(ownership )和认知(recognition)。品牌常常仅是一个符号,这个符号帮助人们在它的竞争对手中将其认出来,并区分开。但是现在,品牌需要做的事情更多, 它是推动销售和利润的力量——让公司更强大的力量。




    利用客户研究来建立你的品牌

    为了建立你的品牌,你可以在线上或者线下做客户研究。线下客户研究包括:

    * 访谈 interviews
    * 问卷调查 surveys
    * 情景问答 contextual inquiries
    * 焦点小组 focus groups
    * 种族志研究 ethnographic studies
    * 案例研究 case studies


    在线客户研究方法包括:

    * 行为广告 behavioral advertising
    * 社会网络 social networking
    * 电子邮件 email messages
    * 移动广告 mobile advertising
    * 评论和论坛 comments and discussion forums
    * 小测试 quizzes
    * 问卷调查 surveys



    如何让品牌“卖自己”?


    下面的因素,如图1,让品牌变得有效:

    品牌因素:

    * 标识:客户能识别出这个品牌吗?

    * 认知和影射(projection):品牌能够传递认识(recognition),回忆(recall)和记起(awareness)的信息吗?

    * 信任:客户能信任并重视这个品牌吗?

    * 营销:这个品牌能够通过不同的可行渠道突出自己吗?

    * 自给自足(sustenance):这个品牌能够在激烈的市场里养活自己吗?


    AKFigure1.jpg




    正确实施客户研究 (也可能是错误的)

    为客户研究选择合适的中介大部分取决于公司的市场策略。让我们看看网站怎么通过不同的营销角度正确地(或错误地)实施客户研究的?

    * 从客户角度的营销:客户,或者用户,希望网站能卖他们要的东西。这意味着一个品牌需要在卖自己的同时也传递公司给用户信息。寻找你的目标市场并保证客户们能的到他们寻找的东西。

    * 从商业角度的营销:当你创造品牌的时候,收集客户信息和反馈,为了长远的促销目的建立一个用户数据库。

    举个例子,社会化网络服务(SNS)能让你通过其他服务(比如Orkut)收集到关于客户的信息。通过Orkut,五年下来,Google会比你的朋友更 了解你。某些状态广播(status-casting)(像Twitter )也擅长这个。电子邮件服务基于邮件的关键字来进行情景广告( contextual advertisements)。

    网络不应该是唯一的客户研究渠道

    网络是一个有效的客户研究渠道,因为你能用最狡诈的方式做在线客户研究。你越“高调地”向潜在客户、客户询问信息,他们越不会用你的服务、而不会成为一个忠心的顾客。网络不适合作为收集市场数据的唯一中介的原因如下:

    * 你可能会忽略了主要客户,因为客户中有特别的一部分不上网。
    * 你收集数据的正确性待定。
    * 在网上问问题涉及了人们的隐私。
    * 人们在线上能够很容易地捏造回答和情感。
    * 你很难说服用户去参加调查活动。
    Tag:
  • 2008-09-09

    为什么我的好文章没有人气?因为仅有优质内容是不够的 - [【我的翻译】]

    原作:Christopher Angus 翻译:路宛兮@译言

     

     

     

        想要在社会化网络上取得成功?所有人都告诉你:要将夺人眼球的高质量文章呈现在志同道合者面前。“针对志同道合者写文章,这样做你就能在社会化网络上获得巨大成功,digg便是如此”。这个说法只是“半对”。优质的内容若没有宣传就什么也不是。


     

        不管您的大作写得有多好,如果没有以正确的方法在社会化网络里宣传,您的大作便不会流行。不信您自己试试,花一个星期撰写极客们(像我这样的)喜爱的技术相关作品然后发布到网上,看看会引起多大反响……结果没有反响。

     

        背后的原因:社会性网络之所以叫社会性网络,是需要一大群人,在你的文章发布之前就对此感兴趣,并散播到更广阔的社区中。你必须建立一个能帮你把文章推到“公众视野”的“好友名单”,没有足够的投票、赞、挖,人们就不会看到你的大作,而你的大作就成了废物。

     

        建立一个良好的“好友网络”需要时间和辛劳,我所知道的许多成功的社会媒体经营者都是全职的,经营好好友网络并不是今天开始明年就能成功的事情。

     

        成功的社会媒体经营者都是在持续付出后,才有他们现在的成千上万的人际网。当他们发表一篇文章到社会网络,便会得到很多关注:因为有人在“追”他们的文章。当一篇文章发表时,社会媒体经营者无需宣传鼓动就会得到很多投票,从而将这篇文章推上公众视野。这时,此文会很容易变成一个或多个社区的“流行网页”, 获得成百上千的浏览者。

     

        另外,一个整合型社会网络会的力量会让本社区的“流行网页”被高估。这是因为,忠实的追求者会下意识地投票,并且绝不会对文章做负面评分。这是个奇怪的现象,你的忠实支持者会盲目地给你投票,不管你文章质量如何。

     

        这并不意味着老掉牙的垃圾文也能取得好成绩。文章还是要有些质量的,否则其他社区的人不会买这篇文章的帐。

     

        这篇文章告诉我们:如果你想成功,建你的人际网络、或尝试说服活跃的社会媒体经营者帮你宣传宣传。



    http://www.yeeyan.com/articles/view/sylviaangel/12954
    Tag:
  • 2008-09-09

    为用户研究访谈做准备的七件要事 - [【我的翻译】]

     

    原作: Michael Hawley @ UXmatters

    翻译:路宛兮


    访谈是一种具有艺术性质的技巧,是“以用户为中心设计”(UCD)的诸多研究方法中的核心方法包 括相关者访谈,可用性测试和焦点小组。所以在访谈中,访问者的技巧对于研究结论的质量和准确度、以及之后的设计决定有着直接的影响。有技巧的访问者能发现 受访者对于某项 任务/产品所持观点中最重要的部分,却不引入访问者的偏见。公司之所以聘用用户研究人员和以用户为中心的设计师,正是因为他们具有这样的能力。

     

    关于用户研究访谈最优方法的文献有很多。比如,在《为界面设计而进行的用户和任务分析》(User and Task Analysis for Interface Design)一书中,Hackos和Redish用一个章节来专门描述“无偏见问题”(unbiased questions)。他们建议访问者不要问误导性的问题,要基于受访者的经验提问,并且避免过度复杂啰嗦的问题。

     

    在访问前撰写采访草稿能 让访问者检查和修改措辞来引出受访者有用且非偏见的回答。但是,在许多访谈模式中,有相当多的问题随机的(ad-hoc)、试探的、重复的,这些问题需要 访问者迅速思考而给受访者留出尽量多的时间。根据我的经验,这样做会引入很多偏见。另外,举行一个成功访谈所需要的不仅仅是提问,它也需要“如何与受访者 进行互动才能使得访谈成功” 的指导方针。这些指导方针包括:观察身体语言,意识到自我检查,明白如何才能正确地在“引导”和“聆听”受访者之间平衡。

     

    有经验的研究人员或许能适应各种访谈情景,并在访谈中能更轻松的与受访者交互。但是长此以往,研究人员会形成提问和交互的固定模式,从而使他们在某一特定环境中难以挖掘出独特观点。再者,访谈中引入的偏见是如此细微,甚至连有多年经验的访问者在自己的访谈会上都难以察觉。

     

    ————————————————————————————————————

     

    circle-logo_newBg3.gif

     

    使得访谈成功的七个要点:

    为了确保访谈成功,在访谈开始之前我会提醒自己以下的七个要点。这对我很有帮助。

     

    1. 设定合理预期。通 常,受访者对于以用户为中心的设计并不熟悉。招聘受访者的人员在征召过程中,或许已经给他们发放了访谈目的的简介,但受访者很有可能还不了解他们的作用。 他们可能会惴惴不安、紧张、或者怀疑你们的动机。当商业利益相关人员觉得研究人员是在调查他们时通常会特别小心翼翼,而这些会对他们的回答产生影响。为了 将影响最小化,你必须确定你已经描述好了(1)访谈的目的、(2)你在设计过程中扮演的角色,(3)访谈过程会如何进行,甚至包括细节:你为什么会做笔记 以及你会怎么编辑整理这些笔记。

     

    2. 闭嘴、聆听。作为一个研究人员,你很容易沉浸于自己撰写的访谈草稿中,自恋于自己的问题和对于重要问题的个人观点。你很容易就会主导对话,并使节奏快得让受访者无法跟上。根据我的经验,受访者只有在有机会进入角色、并思考研究人员的问题时,他们才会提出有意义的观点。当聆听包括:尽量避免插嘴和放慢速度:让受访者能提高他们的发言质量,并提出更多观点。

     

    3. 尽量减少带偏见的问题。要 问误导和偏见性问题实在太容易了。即使是“你喜欢这个过程吗?”这么简单的问题都在潜意识里暗示受访者应该“爱”这个过程。即使是最有经验的访问者,这样 的问题也经常会在不经意间出口。我觉得避免问出这些误导性问题的最好方式是:在访问会开始前读一些“好”问题的例子和"坏"问题的例句。比如:

    坏例句:你喜欢这个登陆屏吗?

    好例句:你对登陆屏有什么想法?

    坏例句:这个功能对你有用吗?

    好例句:这个功能对你有用还是没用呢?

    坏例句:这会是个好主意吗?

    好例句:在你的工作中,这能有多大价值?

     

    4. 待人友善。访问稿是有用的,因为它能帮助研究者记住所有他们需要覆盖的话题。但是照着访问稿直接念对于对话来说有副作用。这么做的结果就是:受访者用最短、最简单的答案来回答问题,以便快速进入下一个话题。所以,从开始的欢迎直到会议结束,我们都要与受访者建立友好的关系和开放的环境:用眼神交流,记住受访者的名字,以平常说话的风格引出受访者最有思想的答案。

     

     

     

    5. 别想当然。你 对某个特定话题的认知,会以影响你提出的问题和你对受访者回答的理解。(人性使然。)你可能会因为从其他受访者那儿听来的答案而产生偏见,也可能之前就 有。当你在无法避免这些影响的时候,开会前就应该提醒自己“别想当然”,从而减少这些因素的影响。尤其是在一连串访谈过后,你要怀着开放的心态接纳另类观 点。

     

    6. 避免以偏概全。 在少数情况下,我们可以让受访者站在他人的角度说话、预测某些有特定人群在特定场景下会如何反应。然而,大多数情况下,应该让受访者根据自己的经历和偏好 发言。研究人员必须对“替别人说话”的受访者保持敏感,在这种情况下,研究人员应该礼貌的要求受访者根据自己的经历发言。

     

    7. 别忘了非语言信号。受 访者不仅仅通过语言来回答问题。身体语言和说话的语气不仅仅表达了他们对于这次访谈的舒适度、还表达了他们对于任务/产品的观点,以及他们对于研究人员和 项目目标的意见。研究人员如果太专注于访问稿而忽略了受访者的非语言信号,他们就忽略了访谈是否需要调整的反馈。用户会紧张、会小心翼翼地说自己的答案; 而商业利益相关者会怀疑项目和这次访谈的背景。所以,研究人员需要接收到这些非语言信号,这些情绪化的反馈会让我们调整访谈,进而保证我们能正确的解析用 户的答案,通过努力获得最大的回报。

     

     

    结论:

    正如在Dumas和Loring的杰作《稳健的用户测试》Moderating Usability Test里 所说,想要进行一个完美的访谈是很困难的。我们所有人都会倾向于偏见,并且产生一些让结果变得不可靠、无效力的坏习惯,特别是在一系列的访谈之后,当你已 经厌倦或者已经对研究的结果有程式化意见时。不过,通过在访谈前检查这七个最优方法——提示自己应该避免的东西——你就能将错误最小化,将研究回报最大 化。

     

    译者注: 研究人员和访问者原文中均为 researcher;受访者也有译做参与者 participant

  • 2008-07-04

    整理世界:谷歌发明处理数据新方法 - [【我的翻译】]

    pb_sorting_f.jpg

    源文档 <http://www.wired.com/science/discoveries/magazine/16-07/pb_sorting>

     

    如果你想要从一大堆数据中取得有用的信息,按照常规做法,你需要做两件事:首先,小心翼翼地保存数据,对数据进行贴标签、整理、分类;其次,用巨型计算机通过逐一排查的方法筛选数据。

     

    但当数据集达到PB级别的时候,老方法就不那么可行了。贴标签,整理,分类,复制,这些维持数据的方法会吞噬你所有的时间。一个电脑,不管有多大,都不能咀嚼这么多的数字。

     

    对于巨型数据集,谷歌有个很棒的解决方法:MapReduce。 它去除了对于传统数据库的需要,并自动在数据中心内分配工作。对于这些在Googleplex不包含的东西,谷歌软件库里有它的开源版本,叫Hadoop。

     

    pb_sorting_f.jpg

     

    谷歌如何碾碎数字?

    MapReduce能够解决你“扔”给它的任何类型的信息,无论是图片还是电话号码。在下面的例子里,我们将清点一下在“谷歌图书”(Google Books)里专有名词的频率。

     

    1.收集

    MapReduce不需要传统结构的数据库,信息在收集的时候就已经分类了。我们只是把谷歌扫描过的所有数据的全文聚集在一起。

     

    2.描绘

    写个方程来描绘数据:“清点谷歌图书里每一个词的每一次使用”。这个任务于是在你的“电脑大军”中被分解,每一个电脑被指派处理一块数据。比如,A电脑处理《战争与和平》,它便知道在这本书里有些什么词,而不是《安娜卡列尼娜》里的。

     

    3.保存

    每一个负责描绘工作的PC都把结果放到它的本地硬盘中,减少数据传输时间。被分配到“还原”功能的电脑从负责描绘的电脑中获取清单。

     

    4.还原

    负责“还原“工作的电脑将清单上的词语进行关联。现在,你就知道了某特定词语在哪本书被用了多少次。

     

    5.解决

    结果是什么?是一个关于你的数据的数据集。在我们的例子里,最终的词汇清单被分散存储,所以它可以被快速的参阅并且提问:”托尔斯泰有多少次提到了莫斯科?多少次提到巴黎?“ 你再也不必从无关的数据中艰苦地得到答案了。

    翻译:兮兮

  • 2008-06-29

    理论的终结:数据洪流让科学方法变得过时(2) - [【我的翻译】]

    尽管如此,最大的目标却不是广告,而是科学。科学方法基于可检验的假设之上的。大部分的模型,是科学家脑中形成的系统。于是,模型会被检验,并用实验来证实或伪造“世界如何工作”的理论模型。这就是科学家们几百年来一直使用的工作方法。科学家被训练得认识到:关联关系不一定是因果关系,若仅仅是因为XY之间的关联关系,则并不能据此得出结论(这只是巧合)。然而,你必须理解连接这两个变量的潜在因素,一旦你有模型,你就能够自信地连接起两个数据集。数据若没有模型,就只是“噪音”。

     

    但是面对大规模数据,科学家“假设、模型、检验”的方法变得过时了。以物理为例:牛顿模型是近似真相的模型(牛顿模型在原子层面上是错误的,但是依旧有用)。100年前,基于量子力学的统计数据对真相进行了更好的描绘:但是量子力学也只是另一个模型而已,模型都是有缺陷的,模型无疑是对于更复杂的潜在真实的拙劣描述。我们不知道怎样操作那些伪造假设的实验,这就是近几十年物理学研究转向对N维大统一理论(grand unified models)的原因——能量太高,加速器太昂贵,等等。

     

    现在,生物学也向同样的方向发展。我们在学校所教的“显性和隐形基因严格遵循孟德尔法则”的模型已被证明是比牛顿定律更简单的对事实的描述。基因蛋白质交感(gene-protein interactions )和其他实验胚胎学的发现已经动摇了“DNA就是命数“的看法,甚至引入了“环境可以影响遗传特性”这些曾经在基因学上被认定为不可能的事情。

     

    简而言之,我们对生物学学得越透彻,我们发现自己离能解释生物的模型越远。

     

    现在有一个更好的办法。PB允许我们这么说:关联关系就已经够了。我们可以不再去寻找模型,我们能够不依靠假设来分析数据。我们能把数字扔到前所未见的最大计算机集群里,让统计数据找到那些科学所不能告诉我们的模式。

     

    最好的实践例子就是: J. Craig Venter鸟枪基因序列。有了高速序列器(sequencers)和超级计算机来解析它们产生的统计数据, Venter从单细胞体到整个生态系统都进行测序。在2003年,他开始海洋生物的测序,重溯COOK船长的旅行。在2005他开始对空气中的生物测序。他发现了上千种未知细菌和其他生命形式。

     

    如果发现新物种让你想到达尔文和他画的那些雀类,你可能还囿于传统的科学研究方法。Venter几乎不能告诉你任何关于他所发现的物种的信息。他不知道他们长什么样,他们如何生存,或者其他关于他们形态学上的任何信息。他甚至没有他们完整的基因组。他所拥有的只是统计性的”点“:一个与其他基因数据库里序列不同的独特序列,必定属于一个新的物种。而这个序列可能和其他我们熟知的序列关联。在这种情况下,Venter能对这些动物做一些猜测:这些动物利用独特的方法,把阳光转化为能源或者他们继承自某一共有祖先。但除了这些,Venter对于此种生物并不比谷歌对于你的MySpace有更好的模型。这仅仅是数据。可是通过利用谷歌品质计算资源(Google-quality computing resources)进行分析,对于生物前沿知识,Venter懂得比其他与他同时代的人都多。这种思维方法。在二月,国家科学基金宣布,集群探索( Cluster Exploratory 简称CluE ),致力于研究运行大规模分布计算机平台的项目将由谷歌和IBM以及六个试点学校一同进行。这个集群将把扩1600个处理器,大量TB内存,上百TB的硬盘,还有包括GFSIBM Tivoli、谷歌MapReduce的开源版等软件。早期的CluE项目将包括大脑和神经系统的模拟以及其他在湿件和软件之间的生物研究。(注:湿件即除了软件、硬件之外的“件”,即人脑)

     

    学会在这个层次上用“电脑”可能具有挑战性。但是机会是很大的:海量数据的新用处,以及咀嚼这些数据的统计性工具,提供了一个理解世界的新方法。关联关系比因果关系重要,科学甚至能在没有一致模型、统一理论,甚至完全不需要任何解释的情况下进步。

     

    我们没有理由坚持我们的老方法。现在是时候问这一句了:科学能从谷歌那儿学到什么?

  • 2008-06-28

    理论的终结:数据洪流让科学方法变得过时(1) - [【我的翻译】]

    (作者:克里森 安德森 译者:兮兮)

    “所有模型都是错的,但是有些是有用的。”30年前,统计学家George Box这么说。他说的是正确的。但是当时我们能有什么选择呢?只有模型,从宇宙哲学方程到人类行为原理的模型,才能连续的(尽管是不完美的)解释我们周围的世界。现在不同了。今天的公司(如谷歌)“生长”在大规模充裕数据的时代,它们不需要错误的模型。事实上,它们根本不需要模型。

     

    60年前,数字化电脑让信息变得易读。20年前,英特网让信息变得易接触。10年前,第一个搜索引擎爬虫让信息变成一个单独的数据库。现在,诸如Google之类的公司正在经历历史上最标准的时代,并将这些庞大文集作为人类社会图书馆。他们都是PETABYTE时代的产物。(注:1 PETABYTE=1024 TB

     

    PETABYTE时代是与众不同的,因为“更多”是一种与众不同。KB级的信息存储在软盘里,MB级的信息存储在硬盘里,TB级的信息存储在硬盘阵列(disk arrays)里,PB级的信息存储在云(cloud)里。如果我们沿着信息存储进化的路线探寻,从类似文件夹,到类似文件柜,到类似图书馆,再到……在PB级别,我们已经想不出有组织的类比了。

     

    PB级别,信息不是简单三维、四维的分类和顺序,而是有维度不可知的统计数据。它需要一种完全不同的方法,一个需要我们放松(lose)对数据的约束,而将其视为能被形象化为一个整体的东西。它让我们先从数学角度看数据,然后为数据设立一个环境。例如,谷歌征服了广告世界,仅仅是通过应用了数学:它不假装自己了解文化和广告惯例知识。它仅仅是做了一个假设:更好的数据加上更好的分析工具将会赢得世界。而谷歌是正确的。

     

    谷歌的奠基哲学就是“我们不知道为什么这张网页比那张网页好”:只要引入链接的统计数据说明它好就行了,并不需要语义上或者是因果关系的分析。这就是谷歌不需要掌握一门语言就能翻译的原因(只要给以合适的文集数据,对于谷歌来说,把外星语(原文是Klingon,克林贡语)翻译成波斯语就和把法语翻译成德语一样容易)。这也是谷歌能在没有任何知识、对广告内容没有任何了解的情况下,能把广告和内容融合得这么好的原因。今年三月的O'Reilly 前沿技术会议( O'Reilly Emerging Technology Conference,亦有人译作新技术峰会)上Peter Norvig(谷歌的研究指导) George Box的座右铭进行了更新:所有模型都是错误的,愈加地,你能在没有模型的情况下成功。("All models are wrong, and increasingly you can succeed without them."

     

    这是一个 大量数据和应用数学取代其他工具的世界。从语言学、社会学的人类行为原理里解脱吧。忘记分类,存在论和哲学吧,谁又能知道为什么人们要做他们做的事情?重要的是,他们“做事”的行为,而我们可以空前“高保真”地追踪并评估这一行为。拥有了足够的数据,数字也能说话。

    源英文文档 <http://www.wired.com/science/discoveries/magazine/16-07/pb_theory>