4.1 数据激增与机器学习的兴起
在以知识为主导的人工智能2.0时代,我们只要为计算机灌输一定的知识,这些机器就能为我们做一些事情,如工业生产、数学计算等,但是,这些机器仅仅能够完成这些知识范围之内的事情。从某种角度来说,当时的人工智能只能为人们节省一些时间或体力(见图4-1和图4-2)。如果我们想要扩展人工智能的用途,就需要不断地向它灌输知识,除此之外,将人类的自然语言输送给计算机本省就是一件比较复杂的事情,让计算机掌握人类的语言更是难上加难,因此人工智能进入了发展瓶颈期。
虽然人工智能进入到了发展瓶颈期,但另外一项技术却得到了快速发展——互联网。
1990年,“互联网之父”——蒂姆·伯纳斯·李开发出了世界上第一个网页浏览器。1993年,伊利诺伊大学美国国家超级计算机应用中心的学生马克·安德里森又开发出了Mosaic浏览器(见图4-3和图4-4)。后来这款浏览器被推向市场,互联网从此进入爆发性发展阶段。
到了1998年,随着谷歌搜索引擎的出现(见图4-5),人们开始重视对数据的搜集和利用,而这种重视在无形中解决了人工智能所面临的一大难题——知识的积累。除此之外,受互联网技术的影响,人工智能研究者也开始逐步对自然语言的处理有了新的认识,人工智能终于再度从“寒冬”中走出来,得以继续发展。
在互联网的影响下,统计自然语言处理这门技术得到了快速的发展,这种方法在一定程度上解决了人工智能如何理解自然语言的难题。运用统计自然语言处理技术处理语言时,不会刻意寻找句子的语义,仅仅是机械地将翻译概率比较高的词语,组成一个完整的句子。在互联网技术的支持下,人工智能有了海量数据的来源,知识也比以前更加丰富。
虽然同样是不考虑句子的语义,但是相比人工智能2.0时代的翻译,这种处理方式已经完善了很多。我们在搜索某一个单词的时候,计算机会自动从网络中检索出被翻译概率最高的词汇。比如,当我们搜索“饕餮盛宴”的翻译时,根据海量数据中的知识,人工智能会将它翻译成“Gluttonous feast”,也就是“暴食的”与“宴会”两个词组合起来。虽然在语境上还差着一些情景,但是基本意思已经十分符合(见图4-6)。
在激增数据的支持下,人工智能从推理、搜索升华到知识获取阶段后,又一次进化到了机器学习阶段。早在1996年,人们就已经定义了机器学习,它是人工智能的一个研究领域,其主要研究对象是人工智能,特别是在经验学习中如何改进具体算法的性能。到了1997年,随着互联网的发展,机器学习被进一步定义为“一种能够通过经验自动改进计算机算法的研究”。
在充分利用数据的基础上,人工智能的相关研究取得了巨大的进展,从谷歌的发展历程中我们能够窥见人工智能发展的影子。谷歌这个统计自然语言处理学领域的探索者和权威代表经过16年的发展,在完成各项人工智能项目开发的同时,还成为了世界500强企业,市值超过了5 000亿美元。正是这样一位先驱者,让人工智能2.0时代中已经濒临绝望的人们再度燃起了对人工智能的热情。
本书评论