深度学习的局限性-暗知识：机器认知如何颠覆商业和社会在线阅读

语速1.0: 2.0

进度0:

深度学习的局限性

上面介绍了一些目前最热的神经网络，例如卷积神经网络、循环神经网络、强化学习、生成对抗网络等，它们有很多神奇的地方，在实际中也得到了相当广泛的应用。但神经网络也好，深度学习也好，都不是万能的，它们有其自身的局限性。

神经网络的一个局限性是，需要依赖特定领域的先验知识，也就是需要特定场景下的训练，说白了就是神经网络只会教什么学什么，不会举一反三。神经网络的这个局限性，是因为神经网络的学习本质上就是对相关性的记忆，也就是说神经网络将训练数据中相关性最高的因素作为判断标准。打比方说，如果一直用各个品种的白色狗来训练神经网络，让它学会“这是狗”的判断，神经网络会发现这些狗最大的相关性就是白色，从而得出结论：白色=狗。在这种情况下，让这个神经网络看见一只白猫，甚至一只白兔子，它仍然会判断为狗。机器学习的这种呆板行为，用专业术语描述叫“过度拟合”。如果想让神经网络变得更聪明，就必须用各种颜色、各个品种、是否穿衣服等各种场景下的狗来训练神经网络，如此它才有可能发现不同的狗之间更多的相关性，从而识别出更多的狗。人类则不同，一个两三岁智力发育正常的孩子，在看过几只狗之后，就能认出这世上几乎所有的狗了。无须大量标注数据和特殊场景的训练，只需要少量的数据，人脑就可以自己想清楚这个过程。

在这方面，目前的神经网络和人脑相比，还有很大的差距。

再如前面提到的汽车和猫的例子，如果一直用正常的汽车来训练这个神经网络，那么当神经网络突然看到图3.14的时候，很有可能无法把它认作汽车，而觉得它更像猫。

这个问题在自动驾驶领域显得尤为突出，由于道路交通状况的复杂性，各种交通指示标志的多样性，想把所有的道路交通场景都训练到显然是不可能的。2016年特斯拉第一起自动驾驶致死的事故也和这个原因有关。

机器学习会把这辆汽车当成猫

图3.14机器学习会把这辆汽车当成猫

神经网络的另一个局限性是无法解释结果为什么是这样，因为人类无法理解暗知识，所以更无法解释。对于神经网络这个“满是旋钮的黑盒子”，每个旋钮为什么旋转到那个位置，而不是多一点或者少一点，都是无法解释的。这个不可解释性在许多涉及安全和公共政策的领域都是很大的问题。例如，医疗涉及人的健康和生命，医生的诊断需要根据极为严谨的医学逻辑，因此医疗对于人工智能的可解释性要求远高于其他行业，极少有医院或医生敢把无法解释的诊断结果用在患者身上。然而由于神经网络自身不具备医学逻辑，其输出的结果也缺乏医学上的解释性，因此目前人工智能在医学上的应用，无论是影像识别还是辅助诊断，都需要专业医生的复核，距离取代医生还有较大的距离。

人工智能之所以有上述两个局限性，主要是因为目前的神经网络只有相关性的学习能力，没有因果推理能力，更无法把一步一步推理的过程表现出来。因此，想要克服这两个局限性，我们需要有因果推理能力的人工智能。要实现这件事情，人工智能需要做的，不仅是识别场景，还需要将识别出来的场景和它具体的功能以及想做的事情结合起来，从而实现合理的逻辑推理。

让我们看看人脑是如何理解一个场景的。当人进入一个新的房间时，会很自然地对这个房间的大小，里面各个物品的大小、位置等有一个大致的认识。之后，人脑会把识别出的场景和物品，与其功能一一匹配，例如，床是用来躺的，而且是一张双人床可以躺两个人，椅子是用来坐的，杯子是用来喝水的，等等。然而值得注意的是，上述的几何重建和功能推理，其精度是和具体任务相结合的。例如，人一开始看到杯子，会匹配它喝水的功能，并看到它放在桌子上，判断距离自己两三米远，这个距离判断是非常不精确的。然而当人真的需要喝水时，喝水成为一个任务，人在走过去拿杯子的过程中，不断地、更加精确地判断自己和杯子的距离，直到非常精确地拿到杯子。这个过程就是一个典型的任务驱动的场景识别和功能推理。

此外，人类对于功能的推理，并非会拘泥于具体的物体，而是能抽象出这个物体和功能有关的物理特性，从而匹配其功能。仍然以喝水为例，如果房间里没有杯子，但是有一个瓢、一个盘子、一根擀面杖，人会很自然地选择瓢作为喝水的工具（如果连瓢都没有则可能选择盘子），因为瓢可以作为容器的物理特点和杯子是一致的。而且，选择了瓢之后，人拿瓢的动作，喝水的动作，都会和拿杯子不一样，这同样是由杯子和瓢不同的物理特性决定的。由此可见，人对于物体的功能推理，是会根据任务的要求，抽象其物理特性，从而推理它的功能并完成任务，因此人工智能的场景识别和功能匹配，是需要基于场景和物体的物理特性来完成的，而不仅仅是识别和标定具体功能。

这种基于任务驱动的因果推理和当前的神经网络的对比如下。（见表3.1）

表3.1神经网络和任务驱动的对比

神经网络和任务驱动的对比

资料来源：朱松纯，《正本清源》，2016年11月刊登于《视觉求索》。

目前在这个方面探索的代表人物是加州大学洛杉矶校区（UCLA）的图灵奖获得者朱迪亚·珀尔（Judea Pearl）教授以及他的同事朱松纯教授。他们认为可以建立一个基于常识之上的“概率决策图”，也叫“概率语法图”。这个模型把人类的常识和世界模型都包含进来，又采用贝叶斯原理，可以像人类一样不需要许多数据就能学会，在处理许多问题上效率远高于神经网络。在高科技领域，硅谷一家由斯坦福大学教授威德罗的弟子创办的人工智能公司Vicarious得到了著名风险投资人蒂尔（Peter Thiel）、特斯拉创始人马斯克、脸书创始人扎克伯格（Mark Zuckberg）和亚马逊创始人贝佐斯（Jeff Bezos）的投资。他们也是采用了概率决策图的方法。虽然目前他们是少数派，但也许若干年后会异军突起，就像神经网络坐了50年“冷板凳”今天突然一飞冲天一样。