猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互



猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互
本文插图
【猎云网北京】10月16日报道
10月16日 , 在FUS猎云网2020年度人工智能产业峰会上 , 阿里巴巴天猫精灵事业部人工智能资深技术专家王浩受邀发表《懂你的家庭助手——AIoT时代无处不在的人机交互入口》的主题演讲 , 他表示 , 交互体验从传统的机械交互到触屏交互 , 再发展到现在的语音交互阶段 。 天猫精灵今年将重点从语音交互升级到多模态交互 , 从无屏的智能助手变成带屏的智能助手 。
“原来天猫精灵只是有耳朵、有嘴 , 它能听、能说 , 现在我们给它加了一个眼睛 , 它还能看到 。 我们希望天猫精灵达到跟真实人类一样的助手能力 , 来帮助用户解决问题 。 ”王浩说 。 此外 , 他表示 , 在家庭场景里 , 过往设备大都比较孤立 , 未来在AIoT和5G时代下 , 希望每个家庭都能通过一个天猫精灵助手 , 以AI技术为核心 , 去联通所有设备 , 包括连接设备和人 , 这才是一个真正的IoT时代 。
今年年初 , 阿里巴巴宣布将人工智能实验室天猫精灵业务升级为独立事业部 , 由阿里云IoT负责人库伟负责 。 2016年 , 阿里云内部孵化人工智能实验室 , 并在2017年7月正式对外推出智能音箱品牌“天猫精灵” , 凭借着先发优势和阿里巴巴平台资源等 , “天猫精灵”一经推出就受到广泛关注 , 并多次在销量中位列第一 。
10月16日 , FUS猎云网2020年度人工智能产业峰会在北京金茂万丽酒店隆重举行 , 近百位知名资本大咖 , 独角兽创始人、创业风云人物及近千位创业者共聚一堂 。
本次峰会由猎云网主办 , 猎云资本、企业管家、猎云财经、锐视角协办 。 峰会以“AI UP!”为主题 , 聚焦人工智能产业的应用 , 通过展示多领域多维度人工智能技术和产品以及分享讨论AI在不同场景中最新落地应用 , 展现人工智能产业落地应用的最新成就;并围绕人工智能产业的“进击”与“破圈” , 探讨AI技术如何为产业赋能 。
以下为王浩演讲实录 , 猎云网整理删改: 现在 , 阿里巴巴菲住布渴酒店不断吸引着国内外游客去打卡 。 在酒店 , 你会体验到另一个网红产品——天猫精灵 , 这个语音交互助手可以帮你去做你想要做的事情 。
我们一直在思考下一代交互入口是什么?大家知道每个人的智能手机是触屏时代 , 触屏交互改变了传统的机械交互 , 比如说键盘、鼠标 , 包括用遥控控制电视 , 还有用洗衣机原来是按键式 , 微波炉也是按键式的 , 现在这些都已经是触屏式 。 再往下走 , 就是另一个交互体验——语音交互 , 比如现在天很冷 , 你打开灯 , 打开空调就是随手说一句 , 自然有设备帮你把这个事情做了 。
今天 , 天猫精灵从无屏的智能助手到带屏的智能助手 , 原来它只是有耳朵、有嘴 , 它能听、能说 , 现在我们给助手加了一个眼睛 , 它还能看到 。
【猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互】这里想跟大家继续分享的是我们一直在打造的天猫精灵家庭助手 , 大家知道它是一个虚拟的机器人 , 我们希望它具备人同样的能力 ,
先介绍刚刚发布的三款带屏音响 , 还有更多 , 我只是列出来三款 。 这里给天猫精灵加了一个眼睛 , 能够更清晰的看到用户想要什么 , 相当于视觉操控 。 天猫精灵家庭助手在“听”、“说”和“看”三方面都进行了提升 。

猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互
本文插图
首先是天猫精灵家庭助手——听:可以称为“闻声识人”功能 , 在过去的传统方法里 , 一个用户语音跟天猫精灵说话 , 天猫精灵听到之后 , 我们采用的是声学模型和语言模型 。 在这里也给大家普及一个概念——语音识别 , 就是把声音转化为文字的一个技术 , 我们经常叫做ASR , 这是英文缩写的结果 。 今年我们采用了与谷歌同样的端到端深度语音识别模型 , 大幅提升了天猫精灵在听用户下达指令的时候不出错的状态 。分页标题
在过去一两年努力当中 , 在用户接受、允许情况下 , 用户可以去注册自己的声纹 。 以后用户跟天猫精灵说话 , 天猫精灵可以识别这个用户是谁 。 比如一个小孩不开心了 , 天猫精灵可以给他讲一个比较好玩儿的故事;如果是大人不开心了 , 天猫精灵可以给他讲一些鸡汤人生哲学 。 这块我们也做出了一些成果 , 比如三口之家里爸爸、妈妈和小孩 , 谁在跟天猫精灵说话 , 它都可以判断出来 。
传统方法是先语音识别 , 然后做语义理解 , 然后做执行 。 我们现在采用的是端到端的方法——语音语义一体化 。 以前人机交互方法是先转化为文本 , 文本进行自然语言理解然后执行 。 现在我们采用跟真人非常相似的方式 , 人机交互过程当中靠语音去执行就行 。 比如我们交流 , 并不需要再把我的话翻译成一个文字 , 然后看到文字再理解 , 而是通过语音直接理解 , 然后去执行 。
整个过去一年 , 我们通过语音语义一体化 , 大幅提升了天猫精灵在用户语义理解方面的能力 。
其次是天猫精灵家庭助手—说:语音合成技术 , 就是将文本转化为语音的技术 。 有点类似于人的嘴巴一样 , 可以有不同的声音 , 天猫精灵有自己的声音 , 也可以根据用户定制化 , 这里并不是录制的 , 而是根据任何文本能动态的读出来 。
我们今年把传统的统计模型转化为深度的语言合成模型 , 主要有三个模块:前端自然语言处理、升学模型和声码器 。 通过对比我们可以发现 , 在传统方法里 , 机器的感觉还是非常重 , 现在我们加入拟人效果之后 , 天猫精灵声音更接近真人 , 这部分我们做了很大的突破和提升 。
最后是天猫精灵家庭助手—看:今天不用介绍人脸技术了 , 大家很熟悉人脸识别的AI技术 。 “看”的技术 , 我们今天看一看小孩手指点读的功能 , 我们希望它能看到你的手指在点课本 , 相当于家长在辅导孩子 。 以前是家长给孩子来读课本 , 现在我们希望通过机器替代家长承担的这部分压力 , 机器帮小孩去读 。 这样的话 , 相当于孩子在课本上想读什么就可以自己来学习 。
我们刚才已经提到了 , 语音可以进行操控 , 但有的时候点个赞 , 或者我是操控往左往右 , 只要天猫精灵看到你的动作之后 , 它自然也会知道了你下达的指令 , 除了语音交互说停止之外 , 你可以攥个拳头也是停止 。 这块相当于在手势识别 , 包括本身的点读识别之外 , 我们也进行了更好的突破 , 未来去给用户更好的体验 。 这里可以看到我们工程师在测试 , 这是天猫精灵眼睛里面看到的用户 , 它在领悟用户的一些指令信息 。

猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互
本文插图
我们今年主要从语音交互提升到多模态融合交互 。 什么叫多模态 , 就是说除了有语音 , 比如说中间是一种语音的交互 , 上面是一个视频的交互 , 因为它看到你 , 它能听到你 , 还有一个文本的交互 。 它现在可以一边看书 , 一边听 , 一边说 , 这是一个真实的人在现实生活当中一个多模态的交互的过程 。 我们目标就是打造这种拟人的、跟真实人类一样的助手能力 , 来帮助用户解决问题 。
我们与其他会刚刚发布的智能音箱 , 加载了多模态交互全新的智慧全场景 。
这里我们还是有一个使命 , 马老师说让天下人没有难做的生意 , 我们天猫精灵拆解来说 , 希望每个家庭都有一个天猫精灵助手 。 我们希望在未来AIoT、5G时代下 , 在设备的连接和控制上 , 我们希望也能有各种服务 。 5G时代互联网是什么 , 我们希望重新定义——以AI技术为核心 , 以家为中心 , 打破设备和场景的边界 。 大家知道以前设备都是比较孤立的 , 我们希望通过天猫精灵能连通这些所有的设备 , 包括跟设备和人 , 这才是一个真正的IoT时代 。 我们希望打造跨领域场景化的“懂你的家庭助手” 。分页标题
大家可以看到我们信息助手、教育助手、娱乐助手、智能家居助手、生活服务助手、健康助手 , 我们希望服务中国4.3亿的家庭用户 。 我们还有很长的路要走 , 也希望各位能支持我们 , 随时帮我们反馈很好的建议 。
我们的口号也很清晰 , 万物有精灵 , 生活有良伴 。