3.5 机器翻译难在何处
人工智能进入2.0时代的标志是人类从赋予人工智能搜索和推导能力升级到了向人工智能输入知识,以此提升其综合性能。比如,“沃森”“深蓝”等计算机的出现,以轻量级本体论为基础,教会了计算机如何利用知识回答问题或战胜对手。看起来计算机的性能提高了,但对于计算机而言,这样的过程中始终是建立在已有规则基础上。一旦脱离这些规则,计算机就不能解决任何问题,因为它并不能理解这些问题的本义。那么,为什么研究人员不尝试解决这个问题,让计算机能够理解语义呢?研究者不是没有去尝试,而是这个问题过于复杂,在整个人工智能2.0时代都没有人能成功的攻克这个难题。
在人工智能1.0时代,机器翻译已经成为研究内容之一,但是由于当时其他理论并不完备,因此这个方向的研究一再被搁浅。到了各项技术有所发展的人工智能2.0时代,关于语言的研究依旧没有突破性的进展,因为这个问题非常难。那么,机器翻译难在何处?
如果要让机器翻译完全达到人类的水平,就必须克服自然语言中有关歧义的问题,因为这是自然语言中普遍存在的问题。这里,我们姑且将歧义理解为多义性。即便对于人类来说,识别一些特殊的多义词语或语句也是比较困难的事情,何况是人工智能。有一则笑话可以反映出多义性是多么复杂的一件事。
有一位在中国学习了10年中文的外国人,去参加一场普通话考试。他在看到考题后哭晕在考场里,考题的内容是下面这样的。
请翻译下列语句中重复词语或语句的意思。
1.冬天:能穿多少穿多少;夏天:能穿多少穿多少。
2.“剩女”产生的原因有两个:一是谁都看不上,另一个是谁都看不上。
3.女孩给男朋友打电话说:“如果你到了,我还没到,你就等着吧;如果我到了,你还没到,你就等着吧。”
4.单身的原因:原来是喜欢一个人,现在是喜欢一个人。
在第二句话中,第一个“谁都看不上”的主语是“剩女”,意思是说“剩女”的眼光很高,谁都看不上;而第二个“谁都看不上”的主语则是其他人或相亲者,也就是说其他人或相亲者看不上“剩女”。从表面上看,这两个短句似乎还是比较容易分辨的,但对于机器来说,要想达到这种类似于人的精确翻译程度,必须先具备活跃的逻辑思维,因为如果我们在百度中搜索“多义词”,就有近1600万个结果(见图3-13)。再加上多义句、语种的数量,我们需要传输给计算机的知识数量将是一个天文数字。
正如前文所说,除了语句的多义性,跨语种翻译也是机器翻译的难点之一。比如,在翻译“he saw a women in the forest with a telescope”这句时,人类会自动翻译成“他用望远镜看到了森林里有一个女人”,但是通过翻译软件翻译的结果如图3-14所示。
翻译软件将这句话翻译成了“他在森林里看到一个女人用望远镜看”,这句话从语义上就存在歧义,究竟是“他”用望远镜,还是那个“女人”用望远镜?当我们看到这句话的时候,想象出的情景是“他”在远处用望远镜看到了一个女人,否则“他”又是如何看到森林里的女人的,因此必须是“他”用望远镜看。
为什么人类可以作出这样的判断呢?这是因为我们在看到有多义性的语句时,可以通过当时所处的情景以及以往的经验判断如何进行翻译。而在人工智能2.0时代,向人工智能灌输知识是主导方式,这样的情景设置显然是不切实际的。
很简单的一件事或一句话,如果没有常识作为基础,那么翻译、理解起来必然非常困难,这也是机器翻译的困难之一。如果机器想要像人一样翻译,就必须掌握所有常识,并且懂得合理设置情景,即便是在今天,也没出现能够支撑如此复杂内容的技术。即便你给机器一本“百科全书”,你还要教会它怎样应用于日常生活,这对于人工智能2.0时代的研究者来说,就像是进入到了知识获取的瓶颈中,这间接导致了人工智能的快速退潮。
本书评论