如何评价智能助手的好坏( 四 ) _小知识

04
小布助手评测体系
接下来，详细介绍一下OPPO小布助手的评测体系。先介绍一下小布：
小布助手是OPPO智能手机和IoT设备上内置的AI助手，是OPPO面向未来5G+万物互融时代的思考和具体战略布局。它具备“无需安装，唤醒即用”的覆盖能力，实现“解放双手，高效操作”的新形态人机互动；拥有丰富的唤醒方式，可轻松实现内容的语音直达服务。目前，小布助手可以支持的技能有上百种，包括比如：生活服务、出行服务、信息查询、系统操作和娱乐服务等。小布助手的能力仍在不断发展，针对这些能力，我们需要制定完整的评测体系，用于评估对用户体验的影响，并不断优化体验。

文章插图
整体的评测框架是围绕语音交互系统的四个核心瓶颈来建设的。目前评测涉及的产品包括手机、手表、电视等。随着OPPO互融布局的展开，评测也会涉及到越来越多的产品。

文章插图
针对“听清”的评测环节，一是需要评估出线上音频质量分布情况，二是要评测ASR识别率。识别率评测分为两种，一种是在语音实验室的端到端评测，另一种是接口的评测。特别是接口评测，根据不同的评测需求，会采用不同的方案。

文章插图
小布助手现在还支持粤语模式，所以也会开展针对性评测，保证粤语交互效果。

文章插图
针对“听得懂，答得好”的环节，我们需要进行自然语言处理相关的评测以及资源引入评测。
评测包括满意度评测、对比评测、用户session满意度评测等。满意度评测，主要评估用户首轮query对应结果的质量。对比评测，主要是评估和小布助手有相同定位的友商产品与小布的差异点。用户session满意度评测，评估用户整个交互过程的满足程度，会把交互全链路考虑进去。还有两类评测，意图的召回率和准确率评测以及上线前的GSB评测。召准率，行业通用，就不多说了，GSB评测是针对技能在算法、资源、产品形态等等上线前和线上版本的效果对比进行的评测。上线前提是，评测结果正向收益大于负向收益，否则改进后的技能专项模型是不能上线的。
资源引入评测主要是观察引入资源的效果。根据不同的资源，评测所关注的维度也是不一样的，这里我就不再一一赘述了。

文章插图
评测体系的最后一部分是“说得清，说得美”，它用来评估小布助手在各个音色上存在的问题点及与竞品存在的差异点。除了行业通用的MOS评测，根据评测需求和效率，也会采用推荐式评测和只关注对错的客观评测方式。
05
总结与展望
任何一个评测体系都不是一成不变的，它会随着用户需求、产品迭代进行方案的升级，用于发现新问题、指导优化思路。
比如随着语音助手从单设备到多终端、单指令到跨服务、单场景到跨场景的发展，小布助手评测体系一定也会持续升级，进一步覆盖超级终端的设备接入和管理能力评测，从语音识别到视觉识别、环境感知等效果能力评估、学习能力评估等。
06
精彩问答
Q：ASR和TTS的评测指标的定义和标准是什么？
A：ASR的评测指标主要是字错率和句错率。语音转成的文字和人工识别的文字进行比较，来计算字错率和句错率。针对接口类如多环境、多噪音、多性别、多年龄评测，我们随机抽取线上用户数据；而语音实验室评测的采集数据会针对性地采集一定噪音环境下的数据，如车载环境、高速公路环境、办公室环境等。实验室会综合人声的采集数据和噪声数据进行语音识别测评。TTS的评测指标是MOS得分，需要考虑自然度、清晰度、准确率等因素。目前档位分为五档，业内针对MOS打分的规则是通用的，有兴趣的同学可以去网上搜索详细的档位划分规则。
Q：针对严重的长尾问题，采用哪种抽样方法更能改善用户体验？评测的边界case怎么处理？例如误唤醒，情绪识别有时很难区分。
A：长尾问题可以使用分层抽样的方法解决，因为随机抽样抽取的样本一定偏向PV较高的，无法覆盖长尾样本。抽样时从某个频次以下的样本池中进行抽样，就可以得到长尾类数据。边界case，如果有客观数据支持最好，如果没有尽量考虑结果的多样性，使模糊的用户query不要影响整体结论。情绪识别有时会遇到难以区别的情况，比如伤心和失望，但是我们会定义具体的规则，尽量区分两种情绪。