现在的位置: 首页 > 综合 > 正文

“跨越语言,沟通无碍”微软语音机器翻译实时演示的惊人突破

2013年01月11日 ⁄ 综合 ⁄ 共 2127字 ⁄ 字号 评论关闭

(2012-11-12
15:17:27)

编者按:每一次,语音识别领域跨出的一小步,对于人类文明的传播来说,都是具有重要意义的一大步。微软首席研究官、微软研究院院长里克·雷斯特博士在日前举办的“21世纪的计算大会”主题演讲中展示的“语音机器实时演示”,向世人描绘了一幅“跨越语言,沟通无碍”的美好蓝图。此项技术一经展示,便记得了现场2000多名观众的欢呼与掌声。活动结束后,里克·雷斯特博士特意撰文,从历史背景与技术突破两方面,与我们分享微软语音翻译实时演示的“前世今生”。

 

      此文译自:Microsoft
Research shows a promising new breakthrough in speech translation technology

作者:里克·雷斯特 

 

 

我在微软亚洲研究院于天津举办的“21世纪的计算大会”上所做的“语音机器翻译实时演示”引起了大家的一些关注,因此我想分享一些关于此项技术的历史背景,以及我们目前所取得的进展。

鈥溈缭接镅裕低ㄎ薨澪⑷碛镆艋鞣胧凳毖菔镜木送黄

在自然用户界面(NUI, Natural User Interface)领域,对计算机来说最重要也是最难的一点就是人类语音。 

过去60年,计算机科学家一直致力于开发一个能够理解人类说话内容的系统。一开始所用的方法就是简单的模式匹配。计算机检查人类语音产生的波形,并尽量与已知相关的特定单词相匹配。

虽然这种方法有时候有效,但极为有限。每个人的发音各不相同,甚至一个人也会以不同的方式说出相同的单词。因此,早期的系统无法运用于实际。 

上个世纪70年代末,卡内基梅隆大学的一群研究人员在语音识别上取得重大突破。他们使用隐式马尔可夫模型,利用来自多个人的培训数据来建立更为稳健的统计语音模型。在过去的30多年中,语音系统已经变得越来越好。过去10年,借助更好的方法、更快的计算机以及处理更多数据的能力,语音系统已经得到了很多实际应用。

目前,如果致电美国的银行,几乎可以肯定的是你在跟计算机对话,它可以回答有关账户的简单问题,并在必要时转给真人。当今市场上的一些产品,包括XBOX Kinect,都是利用语音输入来回答简单问题或导航用户界面。事实上,微软WindowsOffice产品自从上世纪90年代末起,就一直包含语音识别功能。该功能对那些有访问需求的客户而言,是无比宝贵的。

直到今日,即使是最佳的语音系统,在任意语音上的单词出错率还高达20-25%

就在两年前,微软研究院和多伦多大学的研究人员取得了另一项突破。通过使用一个名为深度神经网络(DeepNeural Networks)的技术,它仿照人脑行为研究人员能够训练出比之前方法更富辨别力、更好的语音识别器

1025日,在微软亚洲研究院于天津举办的21世纪的计算大会”上,我向现场两千多名观众展示了此项工作的最新成果,即“语音机器翻译实时演示”。我们能够将语音的单词错误率比之前的方法降低30%。这意味着之前4、5个单词中就会出现一个错误,而现在7、8个单词中才会出现一个错误。虽然仍谈不上完美,但这已经是自从1997年隐式马尔可夫模型出现以来,精确度的最大提升。随着我们在培训中增加更多的数据,我们将会得到更好的效果。

鈥溈缭接镅裕低ㄎ薨澪⑷碛镆艋鞣胧凳毖菔镜木送黄

文本机器翻译同样也很难。如同语音翻译,相关研究人员过去60年一直致力于文本翻译的开发工作。和语音翻译一样,统计技术和大数据的引入也在过去几年使机器翻译发生了翻天覆地的变化。

现在,数百万人每天使用必应翻译这样的产品,将网页从一种语言翻译成另一种语言。 

在我的演示中,我展示了如何将我讲话的文本进行翻译——在这种情况下,用两个步骤将我的英文转化为中文。第一步是提取我说的单词,然后找到相应的中文,虽然这并不简单,但确实是比较简单的一步。第二步是重新调整单词的顺序,使之符合中文习惯,这是语音正确翻译的重要一步。 

当然,英语文本以及翻译成的中文仍存在很多错误,而且翻译结果可能很搞笑。但是,这项技术已经发展的非常好,非常有用。 

最重要的是,我们已经达成了一个非常重要的目标,实现了像我这样说英语的人以自己的声音“说出”中文的愿望——也就是我在中国所演示的。它需要一个文本到语音的系统,该系统是微软研究人员利用数小时中国人说话的语音,以及从一小时预先录制的(英文)数据中提取我的声音属性(这次演示使用的是我之前的演讲录音)而开发的。

尽管这只是一个有限的测试,但是效果非常好,现场观众反响热烈。当我说英文时,系统自动整合所有基础技术,以提供一个强大的语音到语音的体验——用我的声音说出对应的中文。

鈥溈缭接镅裕低ㄎ薨澪⑷碛镆艋鞣胧凳毖菔镜木送黄

结果仍然不够完美,我们还需要去做许多工作,但是该技术非常有前景,我们希望几年后能真正拥有完全打破语言障碍的系统。

换句话说,我们可能不必等到22世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备,我们希望移除语言间的障碍,这样人与人互相理解的障碍也就消除了。2000名中国学生的欢呼以及中国社交媒体前所未有的热议,说明越来越多的年轻计算机科学家也有同感。

 

 
 
 
 
 
 
 
 
 

抱歉!评论已关闭.