如何评价智能助手的好坏( 二 ) _小知识

听不清，开展ASR识别率评测，输出指标为字错率和句错率。它可以在语音实验室开展，优点是可以按照不同场景进行评测，缺点是不能反映真实的线上用户体验，因为评测集是通过录音室采集得到的，而不是真实线上用户的数据；它还可以通过线上接口进行评测，优点是可以使用线上的真实用户的音频数据来检验识别结果，而且评测数据量大。

听不懂，开展意图准召评测，和搜索一样，主要目的是对比人工评判和实际算法的预测效果，输出的指标是召回率、准确率以及F值。听不懂，还开展满意度评测，评测结果对用户的满足程度，会考虑内容是否正确、丰富，交互是否更人性化等等。

说不清，开展TTS评测，评测时会考虑语音合成的自然度、清晰度、拟人度等，输出的指标是MOS得分。

2. 数据选取

文章插图

文章插图
不管是搜索评测还是语音助手评测，抽样方法都可以分为四类。
首先是随机抽样，包括用户日志随机和用户随机。用户日志包括文本日志和音频日志，比如语音助手主要的数据就为音频日志。我们从这些日志中随机选取合适的评测数量，这种方法的优点是能完全反应用户需求的真实分布，缺点是无法较好地发现长尾问题和局部问题。
第二种是去重抽样，将PV全部转换为1，再进行随机抽取日志的方法，这种抽样方法一定要说明情况，避免以偏概全。去重抽样的优点是能更好地覆盖长尾查询，缺点是数据分布与线上用户的真实需求分布不一致。
第三种抽样方法是分层抽样，根据用户日志分为高频、中频和长尾日志，按照比例分别进行抽样。具体高频、中频、长尾的定义与产品有很大关系，并不能说PV超过一个值就是高频日志。它的优点是能够对各个分段进行有针对性的分析，比如产品经理想要看线上整体效果就使用随机抽样，而他想要重点优化高频交互的效果，那么我们就要分层抽样。但它的缺点是数据分布与线上用户的真实需求分布不一致。
第四种抽样方法是垂直抽样。在用户日志中，我们会针对一些特性进行局部抽样。我们可以按领域进行抽样，如想要对闲聊进行评测，我们抽取的query就是闲聊领域的query 。垂直抽样的优点是能更好地覆盖和发现局部类型的问题，缺点是无法从整体上说明问题。
3. 评测维度和规则选取

文章插图
根据产品的定位以及评测的目的，我们可以选取不同的评测维度。
第一个维度：返回的结果不能有违反国家法律法规、影响用户情绪的虚假错误信息，比如黄赌毒等。
第二个维度：垃圾、作弊、低质量信息也是我们重点关注的一个维度。垃圾包括死链等，作弊比如含虚假链接或者堆砌内容等，低质量指的是内容质量不高。这些情况在搜索引擎和语音助手中都较为常见。
第三个维度：意图理解就是预判用户query的真实需求。我们必须理解用户的意图才能给出相关的、高质量的内容。如果意图理解出现了较大偏差，给出的结果就算内容质量再好，也会严重影响用户体验。
第四个维度是相关性，它是一个好的结果最基本也最重要的要求。主要是指用户需求和给出的结果是不是说的是一回儿事。
第五个维度是时效性，要求返回的结果是一个及时的结果，特别对于有时效性需求的query，例如新闻、更新速度快的产品、周期性事件等很重要。第六个维度是排序，主要是在搜索评测中关注的维度。由于搜索结果是一个自上而下浏览的产品形态，质量越高的结果排序应该更加靠前。
第六个维度是多样性，在搜索和语音助手中都会关注，比如一条query最好返回满足不同需求的结果。比如query“陈情令”，多样性结果返回应包含剧情介绍、贴吧讨论等。在语音助手中，多样性指的是语音助手会返回不同有趣的答复。
第七个维度是权威性，在搜索引擎中体现得更多，搜索结果来自于官方网站或者知名网站，特别是一些询问医疗健康、法律法规方面的问题，那么query的结果最好能给出权威性高的网站，其结果肯定比个人撰写的结果要好。
第八个维度是便捷性，是指找到目标信息需要花费的时间和成本，是搜索和语音助手中都会关注的维度。