如何评价智能助手的好坏

导读:近几年来,评测开始频繁出现在人们的生活中,大家对“评测”这个词的认知也越来越深刻 。比如买房、买车、选购数码产品等,人们都会去从某些维度对物品进行对比,最终得出一个评估结论 。互联网产品与日常商品的评测同时具有相同点和不同点 。本次分享的内容是小布助手的评测体系 。
具体将围绕以下几部分展开:

  • 评测概念及评测目的
  • 评测五要素详细介绍
  • 评测通用流程
  • 小布助手评测体系
  • 总结与展望
01
评测概念及评测目的
首先和大家分析评测的概念和目的 。
如何评价智能助手的好坏

文章插图
评测是以目的为导向的,涵盖的范围可大可小 。我们可以将评测定义为评估+测量,它通过一定的规则对观察到的现象做出量化描述 。
如何评价智能助手的好坏

文章插图
日常生活中的商品评测和互联网产品以及人工智能评测有相同点和不同点 。相同点是方法论,它是可以互相复制的 。方法论可复制指的是,不管是商品评测还是互联网产品评测,我们都要考虑评测的样本、维度以及方法 。评测的不同点有很多,主要有以下三点:
  • 互联网产品之间需求场景的差异较大 。互联网产品评测的场景很多,比如搜索任务分为百度、头条这类综合性搜索,淘宝、京东这类购物型搜索,以及其他一些垂类搜索(美团、携程等);人工智能产品如语音助手的评测,它在手机上、在电视上以及在车载环境下的场景需求也各不相同 。
  • 互联网产品或者人工智能产品属于海量数据的评测,样本选取至关重要,结论指标更可量化 。
  • 商品评测都有一定的商业目的,但是互联网产品或者人工智能产品其实很多时候不会关注商业化,也不会去关注产品策略或者算法是怎么样的,而是优先关注用户体验 。评测一切以用户价值为依归,来全面提升用户的体验 。

如何评价智能助手的好坏

文章插图
总的来说,评测的目的有两个 。首先,从用户角度通过大量的样本发现用户感知的共性问题,为产品策略和算法优化提供思路,并推动落地 。其次,评测迭代优化效果,为上线提供依据,并预估出上线存在的风险点 。
02
评测要素
如何评价智能助手的好坏

文章插图
评测的五大要素:评测方式、数据选取(抽样方法)、评测的维度及对应的打分规则、评测标注打分(评测人员对query的需求和结果判断)以及评测报告 。下面,针对这五个要素进行详细介绍 。
1. 评测方式
下面通过搜索行业和语音助手行业分别来介绍常用的评测方式 。
① 搜索行业常用评测方式
如何评价智能助手的好坏

文章插图
常用的评测方法有:
  • 整体满意度(Per-page),即整个页面所有结果的整体用户满意度,输出指标是满意度均分 。
  • 对比评测(SBS),主要是评双方的差异点,输出指标是胜出率 。注意,开展此类评测,要保证评测对象具有可对比性 。
  • 单条打分(PI),即针对query下url结果页分别进行打分,按照结果的位置权重进行加权,最后得出query的得分,输出指标是NDCG,这种评测方式一般用于相关性排序 。
  • 最后一种方式是召回率和准确率的评测,主要目的是对比人工评判和实际算法的预测效果,输出的指标是召回率、准确率以及F值 。
② 语音助手行业常用评测方式
如何评价智能助手的好坏

文章插图
语音助手是一个语音交互系统,它有四大核心瓶颈:唤不醒、听不清、听不懂和说不清 。针对这四个瓶颈,目前行业内有一些比较通用的评测方法 。