互联网确认了基于统计原则的社会形成
20世纪70年代最火的魔术师——尤里·盖勒(Uri Geller)在表演过一次不借助于任何外力就能把勺子变弯的魔术之后,就火得一发不可收拾。多年以后,沃卓斯基兄弟在《黑客帝国》中用更奇幻的电影语言重现了魔术的景象。中国的观众开始了解盖勒,大概是从他在江苏卫视2012年跨年晚会表演了勺子变弯的魔术开始。这个声称自己有超自然力的“意念大师”,在某次电视表演的时候,竟然可以使某些电视观众的手表停转。在那个没有电视直播的年代,盖勒通过电视传递意念的把戏确实唬住了很多人,包括DARPA (美国国防高等研究计划署)都愿意拨一笔钱对盖勒进行研究。但让手表停转这个看似玄妙的超自然力,不仅盖勒可以施展,我们每个人都可以做到——如果观众众多,总会有那么一些忘记给手表上弦的人。
统计可以让一个凡人变成超人,只要运用得当,发家致富也极其容易。
某地有一位江湖郎中,在乡间有些名气,大家都传说他手里有一副想生男就生男、想生女就生女的祖传秘方,于是十里八乡的人都来此求药。此郎中在江湖混迹多年,场面上的事都通晓,看着来求医问药的人越来越多,便跟大家说“有效之后再付款,无效不要钱”。这下大家可都放心了,有此承诺便信心满满。于是郎中的生意越做越好,挣了很多钱。回过头来看,生孩子非男即女,如果求药的人够多,顾客满意率就是50%,更何况那些吃完药所谓“没效果”的人也不会大肆声张(沉默的大多数原则),这自然变成了一门非常好的生意。
当你是一个村长,你可以与自己的村民经常面对面交流;当你变成了县长,你只有精力管辖手下的几个乡长,而与其他人的联系往往是通过电话、邮件和报表实现;当你掌管一个城市的时候,你能知道手下人都在做什么都变得不可能;想象一下,如果你掌握的是像中国这样的一个超大型国家呢,每个人大概就是你办公桌上报表中的一个数字了。其实在面对数据量庞大的以PB计的互联网的时候,我们就像是那个掌管着巨大国家的元首。这下大家似乎隐约感觉到“国家统计局”的作用了吧,它可以把海量数据整理成有用信息,最后为领导层做决策提供指导。
数据和信息二者有什么关系?简单地讲,数据是符号化的客观事物的表示方法;信息是有用的数据,可以知道我们的行为。比如地球是圆的,这是个常识,除非对于想环绕地球一周的人来说起不到任何实际作用,我们就可以将其划入数据的部分。再如北京现在室外温度32℃,如果我不住在北京也无意去北京的话,对我来说这只是个数据;但如果我身处北京且恰恰要出门,这个就变成了信息,可以指导穿衣。数据是信息的载体,数据中包含着有用的信息,把信息从数据中提炼出来的过程叫数据挖掘。比如我们手里有某个地区过去10年详细的降水情况,而这像一个流水账一样的东西实则包含着很多有用的信息,我们可以对照往年的情况预测今年的降水状况,也可以对今年的降水情况与以往的进行对照,找出是否存在天气异常状况等。所有这些都是足不出户的案头工作,如果拥有海量的数据,就足以抛开数据所属的领域进行直接的观察,因为数据会说话。
最早用统计思想进行计算机智能实现的想法,出现在IBM的科学家(1988年,IBM的计算机科学家彼得布朗(Peter Brown))脑袋里。但在十几年之后,Google将其发挥到极致,它依靠自身运行的庞大数据库,配合基于统计的相关性比对,完成了很多表面看起来具备非凡智能的计算机能力,比如翻译、人机语言对话。一些满足了图灵测试(Turing Test)(如果人在和机器交流的过程中,人无法分辨对方是人还是机器,那么就可以说机器具有了某种程度的智能)的计算机功能,从实质上看并非因为智能,而只是在背后大量数据匹配后获得的统计结果。
“你好吗?”当你问出这句话的时候,计算机并不清楚你说的到底是什么。但这并不妨碍它回答你“我很好,你呢?”因为计算机在海量的数据中发现,“你好吗?”“我很好,你呢?”这两句话有着密切的联系,以至于这两句话不同时出现的概率可以忽略不计。Google翻译当前可以认得全球101种语言,不是因为Google机器人是个语言天才,而是由于大量存储数据给机器留下的“统计印象”。这里的大量可能意味着采样足够全面,且数量非常大。这是什么概念呢?比如,我们到一个陌生的地方,抬头看到大街上走来一行人大概有几十人,且超过2/3的人穿着绿色衣服,我们完全不能得出结论说这里的人钟情于绿色衣着。同样的,如果我们今天输入机器一篇中英文文件,我们相信不管是中文还是英文,截取任何一部分,机器都可以精确地将其“翻译”出来。因为在文件输入的时候,这种对照关系是非常精确的。但如果用同样的字词重新造句,再让机器进行翻译,那十有八九它就糊涂了。因为机器根本没有语言能力,机器翻译的前提是它必须之前见过正确的翻译,并且只是通过匹配相关性和查找将其呈现在我们面前。
如果说统计作为原理可以让机器实现智能,为什么在互联网之前无法达到?因为存储,早期的存储能力无法满足海量数据存储的需要。还记得之前说到的网景浏览器吗?还有开创门户时代的Yahoo,那时候的互联网数据是以TB计,几乎可以依靠人工完成整理,Yahoo在刚起步的时候也是“半自动化”进行的。而如今数据以PB计,在未来几年将会出现以EB计的数据流,这才称得上是大量[1TB(太字节)=1024GB,1PB(拍字节)=1024TB,1EB(艾字节)=1024PB]。在没有大量数据做支撑的前提下,计算机相关性匹配的误差大得要命,就像看到一群穿绿色的人就认为这里的人都喜欢绿色一样。
今天,万维网存储的海量数据和全球互通的互联网为机器学习提供了很好的基础。一切问题的解决开始绕过古老的命题过程:从为什么到是什么。也就是运用统计式的原则可以通过数据直达问题的结果,而不必再进行复杂的假设论证推理。
很久之前,人类探索未知的过程是从现象出发,把现象抽象成理论,再用抽象出的理论解释现象。计算机科学和互联网的发展让这个过程不必那么复杂,从现象到现象的统计归纳过程比接入理论更加简便也更加精确,因为理论可能有错误,但现象永远是真实的。
本书评论
This info is priceless. Where can I find out more?