「精选」网易严选质量数仓建设(二)—质量数仓项目建设及管理
文章插图
在《严选质量数仓建设(一)——数据仓库基本概念》中介绍了一些数据仓库的基本概念 , 本文将继续介绍质量数仓建设过程和使用到的产品 。
1. 项目规划--tt-darkmode-color: #A3A3A3;">2. 技术架构设计--tt-darkmode-color: #A3A3A3;">DataHub质量数仓使用 DataHub 从各业务数据源中采集数据 , 并将数据同步到指定库中 。 DataHub 主要是负责收集 MySQL、MongoDB、Kafka、Hbase 等数据 , 并将这些实时生成的数据转成统一的数据格式 , 提供给严选大数据计算平台(猛犸)和流计算平台 。 同时 DataHub 也负责了严选各个异构数据存储系统之间的数据同步工作 , 包括:MySQL, HIVE, ES, HBase, Redis, MongoDB , Excel, 外部 http 接口产生的数据之间的双向或单向同步 。
Mammut【「精选」网易严选质量数仓建设(二)—质量数仓项目建设及管理】猛犸平台是为数据开发人员及数据平台管理人员服务的 , 集成了传输、计算 /ETL、调度等数据开发功能的数据开发平台 。 支持 Hive、Spark、Mapreduce 等多种计算引擎 。 也是质量数仓开发同学的主要“作战工具”之一 , 通过在猛犸上创建各种数据开发任务 , 维度调度信息 , 从而按照指定的周期、时间产出所需的数据表 。
YouData严选有数是基于网易有数 , 为严选定制开发的可视化敏捷 BI 产品 。 主要用来制作可交互的可视化数据报表 , 支持各种多种图表形式 。 质量数仓的开发同学需要使用有数来制作数据报表 , 将由猛犸产出的数据指标通过合适的图表展示出来 。 而报告查看者可以通过各种类型的筛选查看自己最关心的数据 。
仓颉仓颉 , 是严选数仓的指标管理系统 , 通过该系统管理原子指标、派生指标、维度、派生词、修饰词等 。 通过系统明确指标的定义、计算口径 , 一方面能够让开发人员了解指标含义 , 减少重复开发或错误使用;另一方面能够让报告阅览者了解指标的计算方式 , 避免因个人理解差异 , 导致对指标的理解出现偏差 , 而做出错误的决策 。
统一查询统一查询将数据仓库中产出的数据表依据需求同步到各中类型的数据库中 , 各数据产品应用通过统一查询来查询所需的数据指标 , 而无需关心数据库类型 , 因此减少了数据源配置 , 提高了数据查询速度 , 并且减少了重复工作 。 质量数仓体系 , 目前没有属于自己的数据可视化产品 , 但在规划中的质量数据平台 , 必然也要通过统一查询来获取数据 。
作者简介
婧雯 , 网易严选资深测试工程师 , 2014 年毕业于北京理工大学 , 2017 年加入网易 。 参与数据产品技术部多个重点产品质量保障工作 , 建设并完善数据产品部质量保障体系 , 致力于质量保障工作效能得提升 。
本文转自:Infoq , 原文链接:
- 新消防、新电力年度案例精选 拓深科技AI赋能各行各业
- 网易云音乐上线“一键迁移”虾米歌单功能:还免费送3个月黑胶VIP
- 虾米音乐别了!教你把虾米导入QQ音乐网易云音乐
- 虾米音乐宣布关停!我的歌单如何导入QQ音乐、网易云音乐?
- 虾米音乐活跃用户一千万不到,QQ音乐、网易云音乐花式抢客
- 虾米音乐歌单可导入QQ音乐、网易云音乐 方法这
- 网易数帆亮相中台战略大会,解读云原生软件生产力实践
- 聊聊网易云音乐:“心动模式”
- 报告|年底了,支付宝晒剁手,网易云晒歌单,福佑卡车晒……
- 三成网友换手机打算买二手?转转:严选手机省钱更放心