思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019( 三 )


思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
远场、高噪声难题如何解决?
随着智能音箱以及智能电视等各种智能设备的推出,对于远场信号处理,行业内普遍采用麦克风阵列技术 。思必驰的麦克风阵列主要有环形六麦,环形四麦、线性四麦、双麦阵列,在思必驰实验室里,最多的麦克风阵列是三十二麦,即使置于大型会议室里,都能够针对每个人做精细地监测 。
另外,在开放的环境中,我们已经实现了分布式的麦克风阵列 。针对设备的麦克风阵列,环形四麦、环形六麦相对来说是短间距的 。但分布式麦克风阵列不会受空间的约束,不会受麦克风震源间距的约束,它是开放形态,而且可以在空间里随便布置麦克风 。
关于降噪,户外穿戴式的场景中面临的主要问题是降风噪 。我们和许多快递公司、物流合作,将语音唤醒、语音声纹识别做到耳机里 。快递小哥在外快速骑行时,无论是下单、送单都需要进行通话,风会直接吹着麦克风,遇到的典型问题是风噪 。那么,如何解决风噪的问题?思必驰从硬件、软件、结构几方面,很好地对风噪进行抑制 。
当算法解决不了的时候,在耳机上,不光通过空气传播采集语音,而且通过振动或是触感 。大家知道,除了空气麦克风、骨传感麦克风,现在还有肌肤接触麦克风,通过振动采集人的语音 。如何把接触传播和空气传播两种不同性质采集单元结合在一起做降噪处理和融合呢?目前,思必驰正在尝试这样的技术 。
思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
人和人的交互,我们的第一反应是直视,可能是直达声、就近反应 。有一个场景大家可以体会到,如果单独靠语音监听,我们打电话的过程中的交互往往比面对面的交互不自然,原因是什么?
人们在仅凭听觉时,经常会在电话里抢话或是互相等话,我说完等着你反应,而且我不知道你什么时候能反应 。在这样的场景中,真正的智能交互是多模态的交互,除了语音之外,要配合其他的传感器,特别是视觉 。
在智能交互中,虽然大部分机器的语音识别做得越来越好,支持的技能越来越多,但是人与机器的交互,和人与人的交互之间还有差距,具体有哪些方面呢?
首先是自然度 。现在人和机器的交互,特别是成年人和机器交互时,大家怀疑机器的技能 。人和设备交互的时候是命令式的,希望话说完机器就能快速响应,人是非常强势的 。但是,现在已经出现了一些人们把机器当成人看的场景 。说几个典型的场景:在儿童教育中,儿童会把平常不敢跟父母说的话说给机器听,与机器聊天、谈心,这是因为对话技术做得越来越自然 。
人机对话技术遇到的问题是交互的自然度,这个自然度包含哪些方面?首先,人和机器交互的时候,机器该停不停,它不能预测这句话人的意图是否表达完整,依然在监听,有噪声就不会停 。第二个是不该停的时候反而停了,人们在说话期间停顿了一下,机器却认为人们说话结束了,作出相应,表达我不理解你的意思 。
针对这些场景,单点的技术是容易解决的,人声的检测、VAD的检测以及语音识别判断句子的完整性、意图的完整性 。最大的难度是整个的系统架构,从前端采集的信号处理到意图判断,如果判断延迟过高,机器响应是跟不上人的节奏的 。
在智能响应方面,我们已经接近于人类交互的节奏,很好理解对方的意图,可以接话、可以响应 。现在思必驰系统的集成更多会把语音信号的处理、识别往本地移,加速这个过程,有些场景已经实现了人跟机器的自然交互 。
以上是我提到的自然交互的两个方面,另外还有人打断机器对话,以及机器能自然的接话 。人听完一段机器语音,播出的时候已经理解了,有些时候人会非常强势地说:“你赶紧给我闭嘴,我要说下一个意图 。”这个时候人经常会打断机器 。
还有一种场景,在 Google 去年的 Duplex 发布会中,全世界人鼓掌声最响的时候是机器打电话给餐馆预定位置、预定时间,中间有一个细节,对方餐馆服务人员说:“你要预定几人的位置?”,后面没说完“你是几点到?”,这两句话的中间有短暂的停顿,这个时候机器以“嗯哼”进行了响应 。就是这个“嗯哼”,全世界的耳朵都亮了 。这是什么原因呢?
在人的意图没有表达完整的时候,机器要这么短的时间内要响应,将“嗯哼”在 300 毫秒内决策完响应出去,对整个系统的架构挑战非常大 。今后,我们也希望人机交互能够做到更智能:智能地打断、智能地纠正、抗干扰 。