4.1 数据激增与机器学习的兴起-一本书读懂人工智能在线阅读

语速55: 80

进度0:

4.1 数据激增与机器学习的兴起

在以知识为主导的人工智能2.0时代，我们只要为计算机灌输一定的知识，这些机器就能为我们做一些事情，如工业生产、数学计算等，但是，这些机器仅仅能够完成这些知识范围之内的事情。从某种角度来说，当时的人工智能只能为人们节省一些时间或体力（见图4-1和图4-2）。如果我们想要扩展人工智能的用途，就需要不断地向它灌输知识，除此之外，将人类的自然语言输送给计算机本省就是一件比较复杂的事情，让计算机掌握人类的语言更是难上加难，因此人工智能进入了发展瓶颈期。

20世纪90年代的工业人工智能

图4-1 20世纪90年代的工业人工智能

20世纪90年代的个人计算机

图4-2 20世纪90年代的个人计算机

虽然人工智能进入到了发展瓶颈期，但另外一项技术却得到了快速发展——互联网。

1990年，“互联网之父”——蒂姆·伯纳斯·李开发出了世界上第一个网页浏览器。1993年，伊利诺伊大学美国国家超级计算机应用中心的学生马克·安德里森又开发出了Mosaic浏览器(见图4-3和图4-4）。后来这款浏览器被推向市场，互联网从此进入爆发性发展阶段。

Mosaic浏览器图标

图4-3 Mosaic浏览器图标

Mosaic浏览器界面

图4-4 Mosaic浏览器界面

到了1998年，随着谷歌搜索引擎的出现（见图4-5），人们开始重视对数据的搜集和利用，而这种重视在无形中解决了人工智能所面临的一大难题——知识的积累。除此之外，受互联网技术的影响，人工智能研究者也开始逐步对自然语言的处理有了新的认识，人工智能终于再度从“寒冬”中走出来，得以继续发展。

谷歌搜索页面

图4-5 谷歌搜索页面

在互联网的影响下，统计自然语言处理这门技术得到了快速的发展，这种方法在一定程度上解决了人工智能如何理解自然语言的难题。运用统计自然语言处理技术处理语言时，不会刻意寻找句子的语义，仅仅是机械地将翻译概率比较高的词语，组成一个完整的句子。在互联网技术的支持下，人工智能有了海量数据的来源，知识也比以前更加丰富。

虽然同样是不考虑句子的语义，但是相比人工智能2.0时代的翻译，这种处理方式已经完善了很多。我们在搜索某一个单词的时候，计算机会自动从网络中检索出被翻译概率最高的词汇。比如，当我们搜索“饕餮盛宴”的翻译时，根据海量数据中的知识，人工智能会将它翻译成“Gluttonous feast”，也就是“暴食的”与“宴会”两个词组合起来。虽然在语境上还差着一些情景，但是基本意思已经十分符合（见图4-6）。

利用翻译软件翻译“饕餮盛宴”

图4-6 利用翻译软件翻译“饕餮盛宴”

在激增数据的支持下，人工智能从推理、搜索升华到知识获取阶段后，又一次进化到了机器学习阶段。早在1996年，人们就已经定义了机器学习，它是人工智能的一个研究领域，其主要研究对象是人工智能，特别是在经验学习中如何改进具体算法的性能。到了1997年，随着互联网的发展，机器学习被进一步定义为“一种能够通过经验自动改进计算机算法的研究”。

在充分利用数据的基础上，人工智能的相关研究取得了巨大的进展，从谷歌的发展历程中我们能够窥见人工智能发展的影子。谷歌这个统计自然语言处理学领域的探索者和权威代表经过16年的发展，在完成各项人工智能项目开发的同时，还成为了世界500强企业，市值超过了5 000亿美元。正是这样一位先驱者，让人工智能2.0时代中已经濒临绝望的人们再度燃起了对人工智能的热情。