理性行事-人工智能全传在线阅读

语速1.0: 2.0

进度0:

理性行事

基于智能体的范式提供了另一条有关人工智能发展道路的思考：构造能够有效代替我们行动的智能体。不过这又引发了一个有趣的问题，图灵测试确立了一个观点：人工智能的目标是产生与人类相似到无法分辨的行为。但这跟智能体开发的思路不一样，其实我们只是想让智能体代替我们执行最优的选择，它的选择跟人类是否一样，那就无关紧要了。我们真正想要智能体做的是最正确的选择，至少尽可能做出最好的选择。因此，人工智能开发的目标从构建做出跟人类一样选择的智能体转向做出最优选择的智能体。

支持人工智能做最优决策的理论可以追溯到20世纪40年代，约翰·冯·诺依曼——就是我们在第一章认识的，为最早的计算机设计做出开创工作的诺依曼，他和同事奥斯卡·摩根斯坦(Oskar Morgenstern)发展了理性决策的数学理论。该理论表明如何将做出理性决策的问题转化为数学计算问题^[54] 。在基于智能体的人工智能中，智能体将用它们的理论为用户做出最佳决策。

智能体理论的出发点是用户的偏好。如果你的智能体要代替你做事情，那么它需要明白你的希望是什么。你当然想让智能体尽可能做出你喜欢的选择，那么，我们如何让智能体明白用户的偏好呢？假设，你的智能体要代替你在买苹果、橘子或者梨之间做出选择，它首先需要知道你对这三种不同结果的期望值。例如，假设你的偏好如示例一这样的：

橘子比梨好

梨比苹果好

在这种情况下，你的智能体在苹果和橘子之间做出选择，它选了橘子，你会很高兴；如果它选择苹果，你就会失望。这就是最简单的偏好示例，你的偏好关系描述了你如何对每一对备选结果进行排序。冯·诺依曼和摩根斯坦的理性决策需要偏好关系满足某些一致性的基本要求。例如，假设你的偏好是示例二这样的：

橘子比梨好

梨比苹果好

苹果比橘子好

这么看来你的喜好就有些奇怪了。因为从橘子比梨好、梨比苹果好能推断出你在橘子和苹果中更喜欢橘子，但这就和你的声明相矛盾。因此，你的偏好不满足一致性。这就让你的智能体没办法为你做出最优决策。

下一步就是将符合一致性的偏好进行赋值，使用被称为实体程序的方式。实体程序的基本思想是为每一种备选项赋予一个数字值：数字越大，就代表偏好程度越高。例如，我们可以将橘子的偏好程度赋值为3，梨子为2，苹果为1，这样就可以描述前文第一个示例的情况了。因为3大于2，2大于1，这样的话，实体程序就能够正确地捕捉到第一例中的偏好关系。同样地，我们也可以用实体程序将橘子赋值为10，梨赋值为9，苹果赋值为0。在这种情况下，这个赋值的具体数值并不重要：重要的是赋值大小引起的结果排序。关键点在于，偏好设置必须满足一致性，才可以使用这种实体程序赋值的方式，用数值来表示偏好程度。看看前文所举的第二个示例，试试你能不能给苹果、橘子和梨赋值来表示这个偏好关系。

用赋值关系来表示偏好程度的唯一目的是使其可以用数学计算的方式做出最优选择。我们的智能体就可以选择偏好值最大的选择项，这就意味着它的选择可以达成我们最喜欢的结果。类似这样的问题被称为优化问题，在数学中得到了广泛的研究。

不幸的是，很多选择比这个复杂棘手得多，因为它们涉及不确定性。不确定性选择的设置会比较复杂，选择后的行为会有很多种可能性，我们所知道的仅仅是每一种结果出现的概率。

我们举例来说明这个问题，下面的场景，你的智能体必须在两个选项中做出选择^[55] ：

选项1：掷一枚硬币，如果是正面，你的智能体获得4英镑；如果是背面，你的智能体获得3英镑。

选项2：掷一枚硬币，如果是正面，你的智能体获得6英镑；如果是背面，你的智能体什么都不获得。

这种情况下，你的智能体应该选择1还是2？我认为选项1是更好的选择，但是，为什么呢？

为了理解原因，我们需要一个叫作预期效用的概念，此处的预期效用可以等价于在此选择下获得的平均收益。

所以，考虑到选项1。我们掷硬币的概率是对半的(不考虑正面和反面的细微重量差别)，所以我们预期正面和反面出现的次数平均下来应该是相等，即一半正面，一半反面。所以，你的智能体一半的时间会收到4英镑，一半的时间会收到3英镑。因此，你的智能体从选择1当中获得的预期效用是(0.5×4)+(0.5×3)= 3.5(英镑)。

当然，从实际上来说，你的智能体选择1的时候不可能得到3.5英镑的收益，只是如果选择的次数足够多，获得收益的平均值就是3.5英镑。

同样的道理，我们能计算出选择2的预期效用是(0.5×6)+(0.5×0)= 3(英镑)，所以平均来说，选择2只能给你带来3英镑的预期效用。

冯·诺依曼和摩根斯坦的理论中，理性决策的基本原则就是会做出预期效用最大化的行为。在这种情况下，预期效用最大化的选择是选项1，因为它的预期效用为3.5英镑，大于选项2中3英镑的预期效用。

请注意，选项2中提供了诱人的获得6英镑的可能性，这比方案1中的任何结果收益都高，但是，将这个诱人的可能性与同样可能获得0收益的概率相权衡，就不难明白为什么选项1的预期效用比较高了。

预期效用最大化的想法经常被人们误解，有些人认为用数字计算人类的偏好和选择是一种令人厌恶的行为。这种厌恶通常来自一个错误的概念，即收益就等于金钱，或者预期效用最大化理论从某种意义上来说是自私的(因为假设一个使预期效用最大化的智能体行为是只考虑到自己的收益)。但收益这个东西不过是获取偏好数值的一个定义而已，冯·诺依曼和摩根斯坦的理论在对于个人偏好究竟是什么或者应该是什么这个问题上完全保持中立，这个理论同样也适用于天使和魔鬼的偏好。如果你是一心为别人牺牲的人，那也没关系，如果你的利他主义偏好被赋值表达，那么预期效用最大化理论同样适用于你，就如它也适用于世界上最自私的人那样。

到了20世纪90年代，构建能代表我们理性行事的人工智能的智能体范式——这里的理性来自冯·诺依曼和摩根斯坦的理性抉择模型——已经成为人工智能的新正统学说，时至今日仍然如此^[56] 。如果说有任何共同的主题将当代人工智能的各个分支结合起来，那就是这个。在当今几乎所有的人工智能系统中，都有一个数字收益模型，代表用户的偏好，并且系统将根据这个模型努力使预期效用最大化——代表用户理性决策。