迈向通用人工智能？-人工智能全传在线阅读

语速1.0: 2.0

进度0:

迈向通用人工智能？

深度学习已经被证明成就非凡，它使我们有能力构建一些在几年前无法想象的人工智能程序。尽管这些程序赢得了辉煌胜利，但它们并不是推动人工智能朝着宏伟梦想前进的魔法。接下来，为了解释这个问题，我们来看一下两个现在广泛使用了深度学习技术的应用：图像标注和自动翻译。

在图像标注问题中，我们希望计算机能够获取图像并对其进行文本描述。在某种程度上具备这项功能的系统已经得到广泛应用：我的苹果Mac软件在更新照片管理应用程序以后，能够正确将我的照片分为“海滩场景”“派对”等等。在撰写本文的时候，还有好几个通常由国际研究机构运营的网站存在，你可以将照片上传到网站，它会尝试为照片做出标识。为了更好地理解图像标注技术的局限性，进而理解深度学习的局限性，我将一张家庭照片上传到一个网站中(本例中，我使用的是微软的标注机器人)^[78] ，照片如图20所示。

这张照片的内容是什么呢？

图20 这张照片的内容是什么呢？

在我们得知标注机器人的回应之前，先请你看看这张照片。如果你是个英国人，或者是科幻小说迷，那么你可能会认出照片中右边这位先生是马特·史密斯(Matt Smith)，他在2010年至2013年的BBC电视节目中扮演神秘博士(左边那位就别去猜了，那是我已故的岳父)。

标注机器人对照片的回应如下：

我想这是马特·史密斯以站姿拍照，他们看上去似乎很:-) :-)

标注机器人正确地识别了照片中的关键元素，并在某种程度上识别了照片背景(站姿，拍照，微笑)，然而这种正确识别容易让我们误以为标注机器人正在做一些它肯定做不到的事情：理解。为了说明这一点，请考虑系统是如何识别马特·史密斯的，正如我们之前所提到的，像标注机器人这样的机器学习系统是通过给它大量的数据作为训练样本训练出来的。每个训练数据都由图片和对应文字组成，最终，在识别了大量马特· 史密斯的照片以及对应的文本(即“马特·史密斯”的人名)之后，当他出现在照片里，系统就能正确识别出来，并生成文本“马特·史密斯”。几十年的努力研究毕竟是有用的。

但标注机器人并没有真正“认出”马特·史密斯，为了理解这一点，假设我让你看这张照片，你可能会给我这样的回应：

这不是马特·史密斯吗？演神秘博士那位演员，他搂着一个老人站着，这个老人我不认识。他俩都在笑。马特打扮成神秘博士的样子，可能是在拍摄现场吧。他口袋里有卷起来的纸，大概是剧本。马特手里拿着纸杯，或许是在拍摄现场休息。背后的蓝色盒子，那不是塔迪斯吗？神秘博士的太空船时间机器，博士乘坐它四处旅行。他们是在户外拍摄这张照片的，所以很可能就是在摄影现场，附近可能会有摄制组、摄像机和灯光。

标注机器人无法做到这些，虽然它能够识别马特·史密斯，但无法正确理解此处的文本“马特·史密斯”意味着什么。它也无法利用这些知识来解释图片中正在发生的事情。缺乏理解，这就是此处的要点。

当你看到马特·史密斯打扮成神秘博士的照片，就可能联想到一系列的东西，而不仅仅是简单地识别出图片中的人物和解释图片本身。如果你是一个“神秘博士”的粉丝，甚至还有可能深情地回忆起你最喜欢的由他出演的电视剧的某一集(我选择《等待的女孩》，大家同意吗？)。你可能还会记起跟父母或者孩子一起看马特·史密斯主演的《神秘博士》时的场景，里面的怪物让你吓了一跳，等等；或者它会让你联想起一个摄影棚，或者摄制组什么的。

因此，你对这幅图的理解是基于你在这个世界上作为一个人类存在的经历。这样的理解对于标注机器人而言是不可能实现的，因为它没有这个基础(当然，它也并不打算拥有)。标注机器人完全脱离了现实世界，正如罗德尼·布鲁克斯提醒我们的那样：智慧是具体化的。我强调，这个观点并非认为人工智能系统无法做到理解，而是说理解并不是仅仅将某个输入(本例中指包含马特·史密斯的照片)映射到某个输出(本例中指文本“马特·史密斯”)。这种映射的能力可能是理解的一部分，但绝不是全部。

将一种语言自动翻译成另一种语言，是过去十年中因为深度学习技术而快速进步的另一个领域。来看看自动翻译工具能做到什么，又不能做到什么，有助于我们理解深度学习的局限性。谷歌翻译可能算是最著名的自动翻译系统了^[79] ，作为一个产品，它最初于2006年推出，最新版本的谷歌翻译使用深度学习和神经网络，这个系统是通过给它大量的翻译文本训练出来的。

让我们看看，2019年版本的谷歌翻译遇见不合理的难题时会怎么处理。我们让谷歌翻译法国作家马塞尔·普鲁斯特(Marcel Proust)在20世纪早期所著的经典小说《追忆似水年华》的第一段，以下是第一段的法文原文：

Longtemps, je me suis couché de bonne heure. Parfois, peine ma bougie éteinte, mes yeux se fermaient si vite que je n'avais pas le temps de me dire: ‘Je m'endors.’ Et, une demi-heure après, la pensée qu'il était temps de chercher le sommeil m'éveillait; je voulais poser le volume que je croyais avoir encore dans les mains et souffler ma lumière; je n'avais pas cessé en dormant de faire des réflexions sur ce que je venais de lire, mais ces réflexions avaient pris un tour un peu particulier; il me semblait que j'étais moi- même ce dont parlait l'ouvrage: une église, un quatuor, la rivalité de François Ier et de Charles Quint.

很难承认，尽管努力学了10年，我对法语的理解还是十分有限，只能辨认出上文里一些奇怪的孤立的句子，如果没人帮我翻译，我根本看不懂这段文字。

以下是由专业翻译将它翻译成英文的结果^[80] ：

Foralong timeIused to go to bed early. Sometimes, whenIhad put out my candle, my eyes would close so quickly thatIhad not even time to say ‘I'm going to sleep.’ And half an hour later the thought that it was time to go to sleep would awaken me;Iwould try to put away the book which,Iimagined, was still in my hands, and to blow out the light;Ihad been thinking all the time, while I was asleep, of whatIhad just been reading, but my thoughts had run intoachannel of their own, untilImyself seemed actually to have become the subject of my book:achurch,aquartet, the rivalry between FrançoisIand Charles V.^[13]

这下好多了!但有趣的是，虽然这是一段优雅的英文，但它并不是那么直白好懂，至少对我来说是这样。当作者写下“I...seemed actually to have become the subject of my book:achurch,aquartet, the rivalry between François I and Charles V”(直译：我……似乎真正成了这本书的主角：一个教堂、一出四重奏、弗朗索瓦一世和查理五世的竞争)时，到底指的什么？你怎么能“become”(成为)一个“church”(教堂)？他说的“quartet”(四重奏)又是什么意思？还有François I(弗朗索瓦一世)和Charles V(查理五世)之间有什么“rivalry”(竞争)？另外，对一个使用电灯的人而言，“blow out the light”(吹灭烛火)又是什么意思？

接下来我们看看谷歌是怎么翻译这一段的：

Long time,Iwent to bed early. Sometimes, when my candle, my eyes would close so quickly thatIhad no time to say: ‘I fall asleep.’ And half an hour later the thought that it was time to go to sleep would awaken me;Iwanted to ask the volume thatIthought I had in my hands and blow my light;Ihad not ceased while sleeping to reflections on whatIhad read, but these reflections had takenarather peculiar turn;Ifelt thatImyself was what spoke the book:achurch,aquartet, the rivalry between Francis I and Charles V.^[14]

谷歌翻译做的是一件很复杂的事情，跟专业的人工翻译工作类似。但你并不需要相当专业的翻译知识或者文学素养，就能够看出这段翻译其实挺烂的。在英语中，“blow my light”(直译：吹出我的光芒)这个短语毫无意义，这就让后面的句子显得也没有任何意义。事实上，这些句子读起来特别滑稽。而且翻译结果中包含了母语为英语的人永远不可能使用的短语。

我们得到的总体印象是：这段文本大致可以辨认出是什么意思，但是行文扭曲、不自然。

当然，我们给谷歌翻译出了一道难题——翻译普鲁斯特的小说对一个专业的法译英译者而言都是个巨大的挑战。现在问题来了，为什么自动翻译工具这么难以处理文本呢？

关键就在于，你仅仅是懂得法语并不代表就能做好普鲁斯特小说的翻译。哪怕你精通法语，但普鲁斯特的小说仍然会让你摸不着头脑，不仅仅因为他的文字风格，要正确翻译他的小说，你就得理解它，这就需要你有大量的背景知识。关于20世纪初期法国社会和法国人生活的知识(例如你得知道他们使用蜡烛照明)，法国历史的知识(例如你得知道弗朗索瓦一世和查理五世之间的斗争史)，20世纪早期法国文学常识(例如当时的写作风格，还有作者可能引用的典故)，以及对普鲁斯特本人的了解(例如他最想表达的是什么)。谷歌翻译所使用的神经网络里可没有这些知识。

要理解普鲁斯特的小说需要各种各样的相关知识，察觉到这一点并不新鲜。我们在第三章提到的Cyc项目中就遇见过。还记得Cyc项目的目标是创建“包罗万象的知识库”， Cyc的假设是，这将是创造通用人工智能的基础。基于知识的人工智能研究人员肯定希望我向你们指出，早在几十年前他们就预见到这个问题了(来自神经网络研究界的尖锐反驳就是：基于知识的人工智能界根本没创造出来适用解决这个难题的技术，对不对？)。但是，仅仅改进深度学习的技术就能解决这个问题吗？

我认为并不是这样。深度学习将解决问题方案的一部分，我认为，一个合理的解决方案需要的不仅仅是更庞大的神经网络、更强大的处理能力，或者更多无聊的以法国小说形式出现的训练数据。它需要突破现有的模式，需要至少和深度学习本身一样闪亮的突破性进展。我怀疑这些将需要明确的知识表述方式，也需要深度学习：我们必须消除明确表示知识的世界和深度学习以及神经网络的世界之间的隔阂。