深度学习的局限性
上面介绍了一些目前最热的神经网络,例如卷积神经网络、循环神经网络、强化学习、生成对抗网络等,它们有很多神奇的地方,在实际中也得到了相当广泛的应用。但神经网络也好,深度学习也好,都不是万能的,它们有其自身的局限性。
神经网络的一个局限性是,需要依赖特定领域的先验知识,也就是需要特定场景下的训练,说白了就是神经网络只会教什么学什么,不会举一反三。神经网络的这个局限性,是因为神经网络的学习本质上就是对相关性的记忆,也就是说神经网络将训练数据中相关性最高的因素作为判断标准。打比方说,如果一直用各个品种的白色狗来训练神经网络,让它学会“这是狗”的判断,神经网络会发现这些狗最大的相关性就是白色,从而得出结论:白色=狗。在这种情况下,让这个神经网络看见一只白猫,甚至一只白兔子,它仍然会判断为狗。机器学习的这种呆板行为,用专业术语描述叫“过度拟合”。如果想让神经网络变得更聪明,就必须用各种颜色、各个品种、是否穿衣服等各种场景下的狗来训练神经网络,如此它才有可能发现不同的狗之间更多的相关性,从而识别出更多的狗。人类则不同,一个两三岁智力发育正常的孩子,在看过几只狗之后,就能认出这世上几乎所有的狗了。无须大量标注数据和特殊场景的训练,只需要少量的数据,人脑就可以自己想清楚这个过程。
在这方面,目前的神经网络和人脑相比,还有很大的差距。
再如前面提到的汽车和猫的例子,如果一直用正常的汽车来训练这个神经网络,那么当神经网络突然看到图3.14的时候,很有可能无法把它认作汽车,而觉得它更像猫。
这个问题在自动驾驶领域显得尤为突出,由于道路交通状况的复杂性,各种交通指示标志的多样性,想把所有的道路交通场景都训练到显然是不可能的。2016年特斯拉第一起自动驾驶致死的事故也和这个原因有关。

神经网络的另一个局限性是无法解释结果为什么是这样,因为人类无法理解暗知识,所以更无法解释。对于神经网络这个“满是旋钮的黑盒子”,每个旋钮为什么旋转到那个位置,而不是多一点或者少一点,都是无法解释的。这个不可解释性在许多涉及安全和公共政策的领域都是很大的问题。例如,医疗涉及人的健康和生命,医生的诊断需要根据极为严谨的医学逻辑,因此医疗对于人工智能的可解释性要求远高于其他行业,极少有医院或医生敢把无法解释的诊断结果用在患者身上。然而由于神经网络自身不具备医学逻辑,其输出的结果也缺乏医学上的解释性,因此目前人工智能在医学上的应用,无论是影像识别还是辅助诊断,都需要专业医生的复核,距离取代医生还有较大的距离。
人工智能之所以有上述两个局限性,主要是因为目前的神经网络只有相关性的学习能力,没有因果推理能力,更无法把一步一步推理的过程表现出来。因此,想要克服这两个局限性,我们需要有因果推理能力的人工智能。要实现这件事情,人工智能需要做的,不仅是识别场景,还需要将识别出来的场景和它具体的功能以及想做的事情结合起来,从而实现合理的逻辑推理。
让我们看看人脑是如何理解一个场景的。当人进入一个新的房间时,会很自然地对这个房间的大小,里面各个物品的大小、位置等有一个大致的认识。之后,人脑会把识别出的场景和物品,与其功能一一匹配,例如,床是用来躺的,而且是一张双人床可以躺两个人,椅子是用来坐的,杯子是用来喝水的,等等。然而值得注意的是,上述的几何重建和功能推理,其精度是和具体任务相结合的。例如,人一开始看到杯子,会匹配它喝水的功能,并看到它放在桌子上,判断距离自己两三米远,这个距离判断是非常不精确的。然而当人真的需要喝水时,喝水成为一个任务,人在走过去拿杯子的过程中,不断地、更加精确地判断自己和杯子的距离,直到非常精确地拿到杯子。这个过程就是一个典型的任务驱动的场景识别和功能推理。
此外,人类对于功能的推理,并非会拘泥于具体的物体,而是能抽象出这个物体和功能有关的物理特性,从而匹配其功能。仍然以喝水为例,如果房间里没有杯子,但是有一个瓢、一个盘子、一根擀面杖,人会很自然地选择瓢作为喝水的工具(如果连瓢都没有则可能选择盘子),因为瓢可以作为容器的物理特点和杯子是一致的。而且,选择了瓢之后,人拿瓢的动作,喝水的动作,都会和拿杯子不一样,这同样是由杯子和瓢不同的物理特性决定的。由此可见,人对于物体的功能推理,是会根据任务的要求,抽象其物理特性,从而推理它的功能并完成任务,因此人工智能的场景识别和功能匹配,是需要基于场景和物体的物理特性来完成的,而不仅仅是识别和标定具体功能。
这种基于任务驱动的因果推理和当前的神经网络的对比如下。(见表3.1)

目前在这个方面探索的代表人物是加州大学洛杉矶校区(UCLA)的图灵奖获得者朱迪亚·珀尔(Judea Pearl)教授以及他的同事朱松纯教授。他们认为可以建立一个基于常识之上的“概率决策图”,也叫“概率语法图”。这个模型把人类的常识和世界模型都包含进来,又采用贝叶斯原理,可以像人类一样不需要许多数据就能学会,在处理许多问题上效率远高于神经网络。在高科技领域,硅谷一家由斯坦福大学教授威德罗的弟子创办的人工智能公司Vicarious得到了著名风险投资人蒂尔(Peter Thiel)、特斯拉创始人马斯克、脸书创始人扎克伯格(Mark Zuckberg)和亚马逊创始人贝佐斯(Jeff Bezos)的投资。他们也是采用了概率决策图的方法。虽然目前他们是少数派,但也许若干年后会异军突起,就像神经网络坐了50年“冷板凳”今天突然一飞冲天一样。






本书评论