实时翻译成真!揭秘谷歌的 Pixel Buds 翻译耳机是如何工作的?

本文《实时翻译成真!揭秘谷歌的 Pixel Buds 翻译耳机是如何工作的?》是傻大方资讯网小编整理于开放的互联网,版权归原作者所有。

实时翻译成真!揭秘谷歌的 Pixel Buds 翻译耳机是如何工作的?

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文”

 

随着科技发展的速度越来越快,很多在三四十年前只存在于科幻作品中的产品已经成为现实了。就拿 Douglas Adams 于 1978 年发布的《银河系漫游指南》这本科幻经典来说。在构想中的世界中有一种叫“巴贝尔鱼”(Babel Fish)的生物,在插入人耳后,可以帮人随意的翻译任何听到的语言。而如今,谷歌从某种意义上已经发明出来了巴贝尔鱼。

实时翻译成真!揭秘谷歌的 Pixel Buds 翻译耳机是如何工作的?

它就是谷歌在 10 月初的发布会上揭晓的 Pixel Buds 耳机。这款无线耳机可以利用 Pixel 手机上的谷歌翻译 APP,帮你把你所说的和所听到的话在 40 种语言里随意翻译。

 

探秘黑科技

  

实时语言翻译需要一系列技术的支持,而这些技术都在近几年里实现了极大的发展。从 Pixel Buds 听到语音的一瞬间,到被翻译好的语音从手机中播放出来,中间使用了哪些技术呢?

 

输入调节:Pixel Buds 耳机所“听到的”语音会包含大量的背景噪音,所以“除噪”是必须的。语音活性检测(VAD)则会让你的 Pixel Bud 只有在你说话时候才会响应,而不是对周围每个大声说“Ok Google”的人都有反应。触控则是用来提高 VAD 的准确度。

 

语言识别(LID):此系统会用机器学习,在几秒内识别所说的语言是哪一种。这很重要,因为 Pixel Buds 之后所听到的一切语音都会因为语言的不同而意义不同。而仅仅用发音来识别语言并不可靠,比如乌克兰语和俄罗斯语,以及乌尔都语和印地语的发音几乎一模一样。所以,谷歌必须全新发明一种声学模型来识别语言。

  

自动语音识别(ASR):ASR 会使用该声学模型把记录的语音转换成一个个音素,然后具体的语言模型会把这些音素数据转换为文字。通过口语语法、上下文、概率以及发音词典,ASR 系统可以自主补上句子中的空缺并且修改误认的音素。最终,ASR 将会推断出一段基本正确的文字。

 

自然语言处理(NLP):NLP 会使用机器翻译,把这段文字从一种语言翻译到另一种语言。虽然听起来简单,但这不仅仅是把每一个词翻译成对应的词,而是需要理解语音背后的意思,然后把这个意思用另外一种语言表达出来。而这段被翻译出来的文字在细微之处也需要符合其语言的习惯。

 

语音合成(TTS 系统):TTS 和 ASR 可以被视为同一个过程的逆操作。这个系统需要从一段文字中生成一段听起来十分自然的语音。以前的老 TTS 系统会用增添合成,也就是把许多个由人所说的音素按照正确的顺序排列好,合成出成品。而现代系统则会使用复杂的统计声学模型来产生听起来十分自然的声音。