深度学习(神经网络3.0)-人工智能全传在线阅读

语速1.0: 2.0

进度0:

深度学习(神经网络3.0)

我想起2000年前后参与的一个学术人工智能特派专家组的经历。小组的一位成员试图说服我们拒绝任何从事神经网络研究的申请人。“这是一个富有影响力、充满机会的领域，”他

辩称，“我们为什么要雇用一个研究夕阳产业的人呢？”不过我们忽视了他的意见。但公正地说，在2000年，你必须具备非凡的远见卓识才能预测到神经网络即将再次复兴。到了2006年前后，一场复苏确实开始了，它引起了人工智能史上规模最大、宣传最广的爆发。

推动第三次神经网络研究浪潮的关键技术被称为深度学习^[67] 。我倒是很乐意告诉你深度学习可以用某个单一的关键理念描述出来，可惜，事实上，这个术语指代的是一系列相关思想的合集。深度学习至少可以从三个不同的方面解读。

其中最重要的，顾名思义，就是网络要具备“深度”，即多层结构。每一层可以在不同的抽象层面上处理一个问题——靠近输入层的层面处理数据中比较低级的概念(例如图片的边缘之类)，而越是到了深层网络，就处理越为抽象的概念。

深度学习不仅仅体现在“深度”上，还能够享受神经元数量剧增的益处。一个典型的1990年的神经网络可能只有大约100个神经元(如果你没忘的话，人类的大脑大约有1000亿个神经元)。这样的网络在处理具体问题上显然十分具有局限性。到了2016年，先进的神经网络已经拥有大约100万个神经元了(这个数量和蜜蜂的大脑大致相同)^[68] 。

最后，深度学习使用的深层次网络中，神经元本身的连接数量也十分可观。在20世纪80年代出现的高度连接神经网络中，每个神经元可能与其他神经元产生150个连接。到了撰写本书的时候，最先进的神经网络中的神经元，已经和猫的大脑神经元连接数相当了。而人类的神经元平均拥有10 000个连接。

现在，深度神经网络拥有更多的网络层次结构、更多的神经元以及每个神经元拥有更多的连接，为了训练这样的网络学习，就需要比反向传播算法更先进的技术。杰夫·辛顿(Geoff Hinton)于2006年提出了这一观点，他是一位英国出生的加拿大研究员，比任何人都认同深度学习的改革。不管怎么说，辛顿是个了不起的人，他也是20世纪80年代PDP运动的领导人之一，同样也是反向传播算法的创始人之一。我个人认为他最了不起的一点在于，当PDP研究失宠后，辛顿并没有灰心丧气，而是坚持下来，并以深度学习的形式将神经网络带入另一个辉煌，他也因此受到了国际社会的赞誉。(很凑巧，辛顿正好是乔治·布尔的曾孙，我们在第三章里提到过布尔，他是现代逻辑的奠基人之一。不过，辛顿声称，或许这是他和逻辑派传统人工智能唯一的关联。)

更深的网络层级、更庞大的神经元结构、更广泛的神经元连接，是神经网络深度学习模式成功的一个关键因素。而辛顿和其他人在关于训练神经网络方面提供的新技术是另一个关键因素。但深度学习真正获得成功，还需要另外两个因素：数据和计算能力。

数据对机器学习的重要性可以用ImageNet项目的故事来说明^[69] 。ImageNet来自华裔研究员李飞飞的创意。1976年她出生于北京，80年代随父母移居美国，学习物理和电气工程。

2009年，她进入了斯坦福大学，并在2013年至2018年间带领斯坦福大学人工智能实验室。李飞飞认为，机器学习需要大型的、维护良好的数据集，这可以为新系统的训练、测试和比较提供一个通用的基线，也将使整个深度学习研究界受益匪浅。

因此，她启动了ImageNet项目。

ImageNet是一个大型的在线图像档案库，在撰写本书时，已经拥有大约1400万张图片。ImageNet的图片仅仅是照片而已，你可以下载为普通的数码格式，比如JPEG。不过，最重要的是，这些图片被详细分为22 000种不同的类别，使用一个名为“词汇网”^[70] 的在线语义词库标注。词汇网的单词被仔细分类过，例如可以识别具有相同或者相反含义的词汇等等。现在查看ImageNet的图片，我们可以看到它包含1032张标记为“火山口”的图片，122张标记为“飞盘”的图片，诸如此类。

我们需要了解的一个重点是，数据库中特定类别的图像并非人工分类的，也不是因为看上去很相似所以列入分类——恰恰相反，举个例子，飞盘类的图片唯一的共同点是它包含飞盘。其中某些图像是一个人朝另一个人扔飞盘，也有图像是静止在桌面上的飞盘，没有任何人影。每张图片都不一样——除了它们都包含飞盘这个要素。

2012年是技术图像分类发展的最佳时机，当时杰夫·辛顿和他的两位同事亚历克斯·克里泽夫斯基(Alex Krizhevsky)、伊利亚·苏茨科弗(Ilya Sutskever)一起展示了名为AlexNet的神经网络系统，它在国际图像识别比赛中有着亮眼的表现^[71] 。

使深度学习发挥作用的最后一个要素是计算机的处理能力。训练一个深度神经网络需要大量的计算机处理时间，训练本身要做的工作并不太复杂，但是数量庞大。21世纪初开始流行的一种新型计算机处理器被证明是计算繁重任务的理想选择。图形处理单元(GPU)最初是为了处理计算机图形问题而开发的，例如为电脑游戏中提供高质量的动画。但这些芯片被证明是训练深度神经网络的完美工具。现在，每一个名副其实的深度学习实验室里都有GPU群——然而，不管它们拥有多少GPU，实验室的工作人员都会抱怨还不够。

毋庸置疑，深度学习和神经网络取得了成功，但它们也存在一些众所周知的缺点。

首先，它们所体现的智慧是不透明的。神经网络所获取的知识体现在神经元之间相互连接的权重值上，到目前为止，我们还没有办法解析这些知识。一个深度学习的程序可以告诉你在X光扫描图片中哪里有肿瘤，但它无法证明它的诊断是正确无误的。一个拒绝为客户提供银行贷款的深度学习程序无法告诉你它拒绝客户的原因。在第三章中，我们看到类似MYCIN这样的专家系统能够对系统结论做出粗略解释——专家系统得出结论的推理依据是可以追溯的，但神经网络无法做到这一点。目前有许多研究人员正在致力于解决这个问题，但是，到现在为止，我们还不知道如何解释和表达神经网络所包含的知识。

另一个关键问题是神经网络的稳定性，这是个不易察觉但非常重要的问题。例如，如果对图像进行细微的修正，对人类而言，这种修正完全不会影响图像识别，但会导致神经网络错误地将其分类，如图17所示^[72] 。图a是熊猫的原始图像，图b是经过修改的。我想你会认为这两张图没什么差别，而且你肯定会认同它们都是熊猫图片这个结论。可是神经网络能够正确地将图a分类为熊猫，但对图b，它则错误地将其分类为长臂猿。为了解决这类问题而进行的研究被称为对抗性机器学习——这个术语源自一个观点，即有对手故意通过修改图片参数的方式来试图蒙骗程序。

熊猫还是长臂猿？