InfoQ网易严选数据产品实践( 二 )
严选有数继承了网易有数简单易用的特性 , 只需要简单拖拽即可进行可视化分析 , 支持分析师快速制作数据报表 。 PPT式的操作 , 让分析师能够快速进行报表布局、图层管理、图表样式优化 , 制作出业务人员友好的报表 。
由于严选有数承载的报表数量大、大数据查询引擎的并发性能差、业务人员集中在开始上班时间(9点多)并发查看报表 , 性能问题一直是影响业务人员高效阅览报表的主要问题 。 在性能方面 , 我们优化查询引擎(Imapla)的同时 , 通过数据产出驱动的缓存极大的提升了性能 , 支持业务人员快速阅览报表 。 最早 , 严选有数采用常规的被动缓存 , 图表首次访问落库查询(并缓存) , 后续访问查询缓存 。 业务人员上班后(9点多)集中访问报表 , 大量图表首次访问进行落库查询 , 查询引擎瞬间就崩了 。 那时候几乎每天早上都被严选有数群里用户对BI平台崩了的抱怨 , 搞得焦头烂额 , 尽管暂时通过限流排队 , 解决崩的问题 , 但还是大量用户排队访问不了报表 。 我们的第一次改进 , 是把被动缓存改成定时主动缓存 , 因为报表数据绝大部分是T+1的 , 当日数据产出后不会变化 , 所以在每天7点数仓(及分析集市)产出后 , 集中进行主动缓存 。 改进后70%以上的图表访问都能命中缓存 , 秒级影响 , 极大地提升了用户的阅览体验 。 随着图表数量的快速增加 , 7点-9点多之间缓存的占比越来越低 , 平台的平均性能越来越差 , 用户图表平均访问时间也不断增长 , 每天早上严选有数群里各种用户抱怨又开始出现 。 我们再次改进了我们的缓存方案 , 把定时主动缓存改成了数据产出驱动的缓存 。 通过监听数仓表(及分析集市表)产出的消息 , 每次有表产出时遍历依赖该表的所有图表 , 如果相应的图表依赖的表都已经产出就开始进行缓存 。 这样我们就不用等到7点开始进行主动缓存 , 而是从0点开始只要图表依赖的表已经产出就开始进行主动缓存 , 这样从0到9点多 , 我们就能预先缓存大量图表 。 我们的图表缓存命中率达到80%以上(最近缺乏人力持续优化下跌到70%左右) , 命中缓存的图表都秒级响应 。
在网易有数的基础上 , 我们还增加了一些开放协同的功能点 。 我们根据业务人员所属业务域 , 开放了尽量多的数据权限(能看到更多数据 , 才能产生更多分析的想法) 。 我们开发了维度/指标级搜索功能 , 让业务人员通过搜索维度/指标名称 , 快速从众多的报表中找到他想要的报表 。 我们在报表右上角提供了联系作者的快速入口 , 当业务人员阅览报表时 , 如有疑问可以快速唤起popo联系报表作者 。 通过一系列开放协同的产品功能 , 让业务人员可以看到更多的数据 , 可以更快速的找到想要的数据报表 , 可以便捷的联系报表作者(分析师) , 形成业务人员看更多数据->产生更多数据需求->联系分析师提进一步分析需求->分析师开发更多分析报表的分析闭环 。
数据质量保障由于数据源多、数据链路长、数据指标口径复杂等原因 , 数据质量问题多、保障难度大 。 从用户的角度看数据质量主要存在晚、错、不一致的问题 。
本文插图
“晚”是指报表产出晚 , 实时数据延迟 。 由于报表数量大 , 对应的数据处理任务(数仓、数据集市)也很多 , 任务的出错和运行超时都可能导致数据产出晚 。 18年时 , 严选有数用户群里 , 用户反映报表晚产出是常态 。 实时数据延迟主要会在大促时候出现 , 实时UV、在线人数常常会延时 。 “错”主要指数据指标错误和用户标签错误 。 数据源里一条记录的丢失、一个字段的错误 , 数据处理任务链路上一个处理逻辑的错误、任务的延迟都可能导致数据指标、用户标签的错误 。 “不一致”主要指同一指标在不同的报表不一致 , 指标口径业务理解不一致 。 因为同一个指标会出现在不同的有数报表以及不同的数据产品中 , 经常会出现业务在不同的报表里看到指标不一致的情况 。 同一个指标名称在不同的上下文可能有多种口径 , 光毛利相关的口径就有5+个 , 业务人员对同一个指标的口径理解可能会不一致 。
- 互联网优麒麟操作系统新增网易、开源社等五大镜像站
- 同比增长|网易三季度游戏收入139亿,有道巨额亏损拖累净利润下滑
- InfoQ深入浅出Spark(三):Spark调度系统之“权力的游戏”
- InfoQ前Uber CTO加入韩国最大电商公司Coupang
- 潇湘晨报网易发布Q3财报:第三季度营收187亿元, 游戏最赚钱
- 音乐|大和证券:上调网易目标价至187港元,较当前股价高31.9%
- 网易有道2020Q3财报:净收入同比增长 159.0%
- 八戒严选|“凡尔赛文学”爆火,广告营销有了新方向?
- 方面|网易第三季度净收入187亿元 净利润37亿元
- 新浪网网易有道盘前现涨6.56%:之前Q3净营收8.96亿元同比增长159%
