文章插图
文章插图
不管是搜索评测还是语音助手评测,抽样方法都可以分为四类 。
首先是随机抽样,包括用户日志随机和用户随机 。用户日志包括文本日志和音频日志,比如语音助手主要的数据就为音频日志 。我们从这些日志中随机选取合适的评测数量,这种方法的优点是能完全反应用户需求的真实分布,缺点是无法较好地发现长尾问题和局部问题 。
第二种是去重抽样,将PV全部转换为1,再进行随机抽取日志的方法,这种抽样方法一定要说明情况,避免以偏概全 。去重抽样的优点是能更好地覆盖长尾查询,缺点是数据分布与线上用户的真实需求分布不一致 。
第三种抽样方法是分层抽样,根据用户日志分为高频、中频和长尾日志,按照比例分别进行抽样 。具体高频、中频、长尾的定义与产品有很大关系,并不能说PV超过一个值就是高频日志 。它的优点是能够对各个分段进行有针对性的分析,比如产品经理想要看线上整体效果就使用随机抽样,而他想要重点优化高频交互的效果,那么我们就要分层抽样 。但它的缺点是数据分布与线上用户的真实需求分布不一致 。
第四种抽样方法是垂直抽样 。在用户日志中,我们会针对一些特性进行局部抽样 。我们可以按领域进行抽样,如想要对闲聊进行评测,我们抽取的query就是闲聊领域的query 。垂直抽样的优点是能更好地覆盖和发现局部类型的问题,缺点是无法从整体上说明问题 。
3. 评测维度和规则选取
文章插图
根据产品的定位以及评测的目的,我们可以选取不同的评测维度 。
第一个维度:返回的结果不能有违反国家法律法规、影响用户情绪的虚假错误信息,比如黄赌毒等 。
第二个维度:垃圾、作弊、低质量信息也是我们重点关注的一个维度 。垃圾包括死链等,作弊比如含虚假链接或者堆砌内容等,低质量指的是内容质量不高 。这些情况在搜索引擎和语音助手中都较为常见 。
第三个维度:意图理解就是预判用户query的真实需求 。我们必须理解用户的意图才能给出相关的、高质量的内容 。如果意图理解出现了较大偏差,给出的结果就算内容质量再好,也会严重影响用户体验 。
第四个维度是相关性,它是一个好的结果最基本也最重要的要求 。主要是指用户需求和给出的结果是不是说的是一回儿事 。
第五个维度是时效性,要求返回的结果是一个及时的结果,特别对于有时效性需求的query,例如新闻、更新速度快的产品、周期性事件等很重要 。第六个维度是排序,主要是在搜索评测中关注的维度 。由于搜索结果是一个自上而下浏览的产品形态,质量越高的结果排序应该更加靠前 。
第六个维度是多样性,在搜索和语音助手中都会关注,比如一条query最好返回满足不同需求的结果 。比如query“陈情令”,多样性结果返回应包含剧情介绍、贴吧讨论等 。在语音助手中,多样性指的是语音助手会返回不同有趣的答复 。
第七个维度是权威性,在搜索引擎中体现得更多,搜索结果来自于官方网站或者知名网站,特别是一些询问医疗健康、法律法规方面的问题,那么query的结果最好能给出权威性高的网站,其结果肯定比个人撰写的结果要好 。
第八个维度是便捷性,是指找到目标信息需要花费的时间和成本,是搜索和语音助手中都会关注的维度 。
- 智能助手进入黄金新十年
- OPPO小布助手岂止于AI 小布是OPPO家的智能助理
- 眉间有痣的人运势怎么样 眉间有痣的人命运如何
- 属龙如何让生活变得有趣
- 苹果智能手机打电话录音的方法 苹果手机怎样打电话录音
- 黑咖啡喝了如何减肥,涿州轻饮咖啡价格
- 【游戏迷】LPL季后赛V5vsTES复盘,TES接下来将如何面对RNG!
- 3000元手机怎么选 3000元手机怎么选5g
- 手机如何设置屏幕录制 怎么设置手机屏幕录制
- 如何区分手机贴膜的好坏 怎么辨别手机贴膜的好坏