谨慎地表达意愿-人工智能全传在线阅读

语速1.0: 2.0

进度0:

谨慎地表达意愿

有关人工智能伦理的讨论有时候会让我们遗忘一个平凡的现实：人工智能软件就只是软件而已，我们不需要创造什么新奇的技术让软件出错。简言之，软件本身就有缺陷，没有缺陷的软件是不存在的：只是有的软件因为缺陷崩溃了，而有的没有。开发无缺陷软件是计算机领域的一项重要研究，发现和消除缺陷是软件开发的主要内容之一。但是人工智能软件为引入缺陷提供了新的方式。其中最重要的一点是，如果人工智能软件要代替我们工作，我们需要告诉它希望它做什么，这往往不像想象中那么容易。

大约15年前，我正在研究一种技术，旨在使车辆在不需要人为干预的情况下进行自我协调。听起来很酷炫，不过因为我研究的特定场景是铁路网，所以实际情况相对要简单一些。铁路网是环形网络，上面有两辆列车朝着相反的方向行驶。当然，火车和铁路都是虚拟的——没有实际的轨道(事实上连玩具轨道都没有)。假设虚拟的铁路通过一个狭窄的隧道，如果两辆火车同时进入隧道，那么就会发生(虚拟的)车祸，而我的目标是阻止这一切。我尝试开发一个通用框架，允许我向系统提出一个目标(本例中的目标是防止火车撞车)，系统将返回一些规则，列车如果遵循这些规则就能保证目标实现(列车不会发生碰撞)。

我的系统开始工作了，但跟我想象的差距甚远。当我第一次向系统输入目标时，系统返回的规则是：两列火车必须都保持静止。当然，这是可行的——如果两列火车都保持静止，当然不会发生车祸了，可这不是我想要的方案。

我遇见的问题是人工智能研究中的典型问题，实际上在计算机科学中也存在。我们想把自己的意愿传递给计算机，这样计算机可以代表我们去达成它。但是，将意愿准确地传达给计算机，本身就是一个非常有问题的过程，原因有好几个。

首先，我们可能并不知道自己想要什么，至少并非明确知道，在这种情况下，表达自己的意愿几乎不可能。另外，我们的意愿通常存在矛盾，在这种情况下，人工智能又要如何理解它？

此外，我们不可能一次说清自己的偏好，所以通常我们所做的是对意愿和偏好进行概述，而概述和全面的叙述之间总会存在差距，人工智能又该如何弥合这些差距呢？

最后，也许也是最重要的一点，当我们和人类交流的时候，通常默认彼此间有共同的价值体系和规范。我们不需要每次互动之时都把所有的东西交代清楚。但人工智能并不清楚这些默认的价值体系和规范，它们必须得到明确的说明，或者我们需要通过某种方式保证人工智能系统的后台存在这些东西。如果没有，那我们没法得到自己想要的结果。在上文的火车铁轨研究中，我传达了我的目标，即火车要避免撞车，但我忘了传达一个信息：火车仍然需要保持运行。如果是跟人交流，我想所有人都会理解并默认这一点，哪怕我忘记交代。但计算机系统不会。

牛津大学哲学家尼克·博斯特罗姆(Nick Bostrom)在他2014年出版的畅销书《超级智能》^[110] 中讲述了这种情况，他称之为不通情理的实例化：计算机按照你的要求去做了，但并没有按照你预期的方式。想象不通情理的实例化具体案例，可以让人不停地想上几个小时：你要求机器人确保你的房子不会被窃贼入侵，它索性一把火把房子烧了；你要求机器人保证人类不会得癌症，它干脆把所有人都杀了。诸如此类。

当然，我们在日常生活中也经常遇见这类问题：每当有人设计了一套旨在鼓励某一类行为的激励机制时，总有人会找到某种博弈方式，在不按预期行事的情况下获得奖励。我想起了苏联时期的一则逸事(可能是编造的)：苏联政府希望鼓励刀具生产，因此决定根据刀具的重量来奖励生产刀具的工厂，结果如何？餐具工厂很快开始生产重得拿不起来的餐刀餐叉之类……

迪士尼经典电影的影迷可能会想到一个相关的情景，1940年迪士尼电影《幻想曲》中有一段情节，天真的巫术学徒米老鼠厌倦了从井里打水并提到屋里的家务活儿，为了减轻自己的负担，他召唤了巫术扫帚来做这件事。但是当米老鼠打瞌睡醒来后，他不得不阻止扫帚一桶又一桶地往屋里提水，结果他的地下室被水淹没了。最终他不得不寻求巫师师父的介入来纠正这个问题。米奇的扫帚完成了他的要求，但那并不是他想要的。

博斯特罗姆还设想了以下场景：假设有一套控制回形针生产的人工智能系统，人们要求它“最大化生产回形针”，然后，从字面意思来讲，系统将考虑先把地球和宇宙的其他部分转化成回形针的样式。同样，这个问题归根结底还是沟通问题：在这种情况下，我们传达目标的时候，要确保明确无误，不会产生歧义。

解决这个问题的方法是设计一种人工智能系统，以尽量减少其行为对周围环境的影响。也就是说，我们希望人工智能实现目标，同时让它所涉及的一切都尽可能保持或接近现在的状况。“ceteris paribus preferences” (即“尽可能保持其他条件不变”)的概念说明了这一点^[111]。“ceteris paribus”是拉丁文，意思是“其他条件不变”。因此，按照“尽可能保持其他条件不变”的想法，如果我们让人工智能系统做一些事情，是希望它完成任务的同时，保持其他一切尽可能不发生变化。因此，当我们发出“避免我的房子被盗贼入侵”指示时，我们的意思是“避免我的房子被盗贼入侵，同时尽可能使房子的其他一切保持现状”。

解决这些问题的核心都是让计算机理解我们真正想要的是什么。逆向强化学习就是针对这一问题展开的，我们在第五章了解了常规的强化学习：智能体在某种环境中行动，并获得奖励。强化学习的目的是找到一个行动过程，最大限度地获取奖励。在逆向强化学习中，我们首先确定了“理想”的行为(即人类会怎么做)，然后再制定人工智能软件能获得的相关奖励^[112] 。简言之，我们是将人类的行为视为理想行为的典范。