贾磊畅谈AI语音技术的现在、过去和未来( 二 ) 在国内

时间就像海绵里的水，努力挤才能平衡工作和家庭
贾磊曾在2015年荣获全国劳模称号（互联网业首位全国劳动模范），可以想见工作强度非常大，关于怎样平衡工作和家庭，他认为互联网的工作强度都很大，互联网工作的朋友们都牺牲了很多自己的生活休息时间。 “我个人而言和从事互联网行业的伙伴们一样，都是全身心的投入工作，家庭生活感觉确实参与的少一些。陪孩子的时间也比较少，有时候工作忙了，早晨一大早出来，晚上很晚回去，回去后孩子也早就睡了。早晚两头都见不到孩子，非常想她。每次见到孩子冲着我笑的小脸，我都觉得很自责。如果不是很忙的话，我都尽量早晨早一点起来。陪她吃早饭，送她上学。上学路上，我会教她看红绿灯、走斑马线以及避让绿灯时候右转的车辆。之后，我赶紧开车奔向公司，正好能赶上大清早开始工作。我觉得时间就像海绵里面的水，只要你使劲挤，总是能挤出来的。不要错过陪伴孩子长大的时间，他们长大的很快，一晃就不再需要我们的陪伴了。 ”
（下）
上篇我们聊到了贾磊老师与智能语音技术的情结，下篇我们将着重从技术侧和你聊聊智能语音的过去、现在和未来，干货满满。
智能语音行业发展历程解析
IBM ViaVoice 时代的语音技术
语音行业在2000年左右，迎来了第一个产业高潮，也就是IBM的ViaVoice 语音录入软件。当时人们把这个软件安装到PC机器上，就可以在计算机前面朗读报纸或者新闻内容，或者录入一些简单的日常用语，识别率也还不错。于是工业界有了一次大规模连续语音识别的产业化应用的热潮。当时， ViaVoice时代的语音技术还是以HMM建模和混合高斯系统 (GMM) 为声学建模核心的建模技术，语言模型采用的是基于 Ngram 的统计语言模型。因为 PC 上的内存限制，语言模型体积也只有几十 M 。另外，当时可以获得的文本语料也是有限的，所以语言模型能覆盖的内容范围很小，当时主要集中在新闻报纸和日常用语领域。因为 HMM 系统和混合高斯系统建模能力有限，这时的连续语音声学训练语料库也就只有数百小时。这个时候的语音识别系统对说话方式和口音的要求也很严格，说话方式必须是朗读方式，口音也要求必须是标准普通话，否则，识别率迅速下降。很快的，人们发现 ViaVoice 难以满足人们在 PC 上把声音转成文字的产业需要。慢慢地， ViaVoice 的产业热情就逐渐降温了。
文章插图
早期Windows上的ViaVoice软件
在2003年贾磊毕业的时候，基本上人们对于语音输入的产业期望已经很低了，各大公司都降低了语音技术的投入和预期。贾磊刚毕业就立刻迎来了语音技术的第一个低潮期，当时很多做语音专业的学生都转换方向，不少人做语音也是选择留校，而不是工业届。当时国内各大公司比较多见的语音需求是手机上的数字和人名拨号系统、以及车载语音导航等嵌入式产品研发，技术也大都集中在设备端侧的单通道语音识别或者是语音合成。技术上讲，这些应用都是嵌入式孤立词语音识别系统，其特点是只能识别特定的指令词和句式。之后的几年，除了零星的嵌入式设备应用外，语音技术在工业界的拓展乏陈可新，语音产业持续低迷。
【贾磊畅谈AI语音技术的现在、过去和未来】语音技术的产业应用迎来第二波高潮
痛苦的日子总算没有太长。在2007年，微软公司收购语音识别技术企业Tellme Networks ，并开始组建自己的语音团队，语音技术的产业应用又重新回到大公司的关注热点中。很快，谷歌于2008年在美国发布了英文语音搜索服务Voice Search,并应用于Android、诺基亚S60、黑莓、iPhone 等多个系列的手机。之后，谷歌又在 2009 年发布了中文语音搜索，语音的产业应用迎来了新一波高潮。这一波热潮的核心特点是以互联网需求和实现为基础，此时模型处在云端，所以体积可以更大。例如语言模型，由于位于云端，语言模型体积可以达到上G,这是之前2000年左右的ViaVoice 语音系统所不可能达到的（2000年的比较好的PC计算机内存才256M ，那是语言模型位于终端，也只有几十M）。语言模型位于云端后，热词新词的信息更新也更加及时，同时大的模型体积意味着对支持的语言领域更加广泛。同时，技术上虽然声学模型仍然是以 HMM 框架 GMM 建模为主体，但是可以采用更多更大的训练语料。数千小时乃至上万小时的声学训练语料库已经开始进入工业界。因此从 2000 年到 2010 年左右的十年期间，虽然语音识别的核心算法技术仍然是 HMM、GMM 和 Ngram 统计语言模型，但是因为互联网技术的引入，可以采用云端体积更大的声学模型和语言模型，训练这些模型的语料库也显著增加，最终导致语音交互的用户体验得到很大提升，语音技术的云端应用逐渐开始流行。