语音识别:实时跨文化交流不再遥远
人工智能的另一只圣杯是语音识别。不久之前,计算机的独立语音识别应用领域还很有限,如机票预订。而如今,限制已不复存在。2012年,一名来自多伦多大学的实习生在微软研究院(Microsoft Research)的一个夏季研究项目中,让微软的语音识别系统性能得到了显著的提升(图1–4)。[15] 2016年,微软的一个团队宣布,他们开发的一个拥有120层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平[16]。

图片来源:微软研究院。
这一突破性成果将在之后的几年逐渐影响我们的社会,计算机键盘会被自然语言接口取代。随着数字助手,如亚马逊的Alexa、苹果的Siri以及微软的Cortana先后进入千家万户,这种取代已经在发生了。就如随着个人电脑的普及,打字机退出了历史舞台,有一天电脑键盘也将成为博物馆的展品。
当语音识别和语言翻译结合到一起时,实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。为什么计算机语音识别和语言翻译达到人类的水平要花这么久的时间?难道计算机的各种认知能力同时进入瓶颈期仅仅是巧合吗?其实所有这些突破都源于大数据的出现。






本书评论