如何评价智能助手的好坏( 二 )

  • 听不清,开展ASR识别率评测,输出指标为字错率和句错率 。它可以在语音实验室开展,优点是可以按照不同场景进行评测,缺点是不能反映真实的线上用户体验,因为评测集是通过录音室采集得到的,而不是真实线上用户的数据;它还可以通过线上接口进行评测,优点是可以使用线上的真实用户的音频数据来检验识别结果,而且评测数据量大 。
  • 听不懂,开展意图准召评测,和搜索一样,主要目的是对比人工评判和实际算法的预测效果,输出的指标是召回率、准确率以及F值 。听不懂,还开展满意度评测,评测结果对用户的满足程度,会考虑内容是否正确、丰富,交互是否更人性化等等 。
  • 说不清,开展TTS评测,评测时会考虑语音合成的自然度、清晰度、拟人度等,输出的指标是MOS得分 。
  • 2. 数据选取
    如何评价智能助手的好坏

    文章插图

    如何评价智能助手的好坏

    文章插图
    不管是搜索评测还是语音助手评测,抽样方法都可以分为四类 。
    首先是随机抽样,包括用户日志随机和用户随机 。用户日志包括文本日志和音频日志,比如语音助手主要的数据就为音频日志 。我们从这些日志中随机选取合适的评测数量,这种方法的优点是能完全反应用户需求的真实分布,缺点是无法较好地发现长尾问题和局部问题 。
    第二种是去重抽样,将PV全部转换为1,再进行随机抽取日志的方法,这种抽样方法一定要说明情况,避免以偏概全 。去重抽样的优点是能更好地覆盖长尾查询,缺点是数据分布与线上用户的真实需求分布不一致 。
    第三种抽样方法是分层抽样,根据用户日志分为高频、中频和长尾日志,按照比例分别进行抽样 。具体高频、中频、长尾的定义与产品有很大关系,并不能说PV超过一个值就是高频日志 。它的优点是能够对各个分段进行有针对性的分析,比如产品经理想要看线上整体效果就使用随机抽样,而他想要重点优化高频交互的效果,那么我们就要分层抽样 。但它的缺点是数据分布与线上用户的真实需求分布不一致 。
    第四种抽样方法是垂直抽样 。在用户日志中,我们会针对一些特性进行局部抽样 。我们可以按领域进行抽样,如想要对闲聊进行评测,我们抽取的query就是闲聊领域的query 。垂直抽样的优点是能更好地覆盖和发现局部类型的问题,缺点是无法从整体上说明问题 。
    3. 评测维度和规则选取
    如何评价智能助手的好坏

    文章插图
    根据产品的定位以及评测的目的,我们可以选取不同的评测维度 。
    第一个维度:返回的结果不能有违反国家法律法规、影响用户情绪的虚假错误信息,比如黄赌毒等 。
    第二个维度:垃圾、作弊、低质量信息也是我们重点关注的一个维度 。垃圾包括死链等,作弊比如含虚假链接或者堆砌内容等,低质量指的是内容质量不高 。这些情况在搜索引擎和语音助手中都较为常见 。
    第三个维度:意图理解就是预判用户query的真实需求 。我们必须理解用户的意图才能给出相关的、高质量的内容 。如果意图理解出现了较大偏差,给出的结果就算内容质量再好,也会严重影响用户体验 。
    第四个维度是相关性,它是一个好的结果最基本也最重要的要求 。主要是指用户需求和给出的结果是不是说的是一回儿事 。
    第五个维度是时效性,要求返回的结果是一个及时的结果,特别对于有时效性需求的query,例如新闻、更新速度快的产品、周期性事件等很重要 。第六个维度是排序,主要是在搜索评测中关注的维度 。由于搜索结果是一个自上而下浏览的产品形态,质量越高的结果排序应该更加靠前 。
    第六个维度是多样性,在搜索和语音助手中都会关注,比如一条query最好返回满足不同需求的结果 。比如query“陈情令”,多样性结果返回应包含剧情介绍、贴吧讨论等 。在语音助手中,多样性指的是语音助手会返回不同有趣的答复 。
    第七个维度是权威性,在搜索引擎中体现得更多,搜索结果来自于官方网站或者知名网站,特别是一些询问医疗健康、法律法规方面的问题,那么query的结果最好能给出权威性高的网站,其结果肯定比个人撰写的结果要好 。
    第八个维度是便捷性,是指找到目标信息需要花费的时间和成本,是搜索和语音助手中都会关注的维度 。