语音识别：实时跨文化交流不再遥远-深度学习: 智能时代的核心驱动力量在线阅读

语速1.0: 2.0

进度0:

语音识别：实时跨文化交流不再遥远

人工智能的另一只圣杯是语音识别。不久之前，计算机的独立语音识别应用领域还很有限，如机票预订。而如今，限制已不复存在。2012年，一名来自多伦多大学的实习生在微软研究院（Microsoft Research）的一个夏季研究项目中，让微软的语音识别系统性能得到了显著的提升（图1–4）。^[15] 2016年，微软的一个团队宣布，他们开发的一个拥有120层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平^[16]。

微软首席研究官里克·拉希德（Rick Rashid）在2012年10月25日于中国天津举行的一场活动中，使用深度学习进行了自动语音识别的现场演示

图1-4 微软首席研究官里克·拉希德（Rick Rashid）在2012年10月25日于中国天津举行的一场活动中，使用深度学习进行了自动语音识别的现场演示。在2000名中国观众面前，拉希德说的英文被自动化系统识别，先在他的屏幕图像下方显示出英文字幕，随后被翻译成了中文。此次高难度展示被全球媒体争相报道。

图片来源：微软研究院。

这一突破性成果将在之后的几年逐渐影响我们的社会，计算机键盘会被自然语言接口取代。随着数字助手，如亚马逊的Alexa、苹果的Siri以及微软的Cortana先后进入千家万户，这种取代已经在发生了。就如随着个人电脑的普及，打字机退出了历史舞台，有一天电脑键盘也将成为博物馆的展品。

当语音识别和语言翻译结合到一起时，实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。为什么计算机语音识别和语言翻译达到人类的水平要花这么久的时间？难道计算机的各种认知能力同时进入瓶颈期仅仅是巧合吗？其实所有这些突破都源于大数据的出现。