bilibili 实时计算平台架构与实践( 五 )
文章插图
- DJoin-HBase 高可用:维表数据达到T级别时使用 HBase 进行数据存储 。 HBase 高可用性采用双 HBase 集群 , Failover AB 模式 。 这时需要考虑两个问题 。 第一是数据更新机制 。 数据更新可以是按小时或按天 , 采用 HFile BulkLoad 模式 , 串行+ Interval 间隔导入 , 导入后同步数据预热 , 以此保证两套HBase 集群的稳定性 。 第二是数据查询机制 。 引入 Hystrix 实现服务熔断、降级回退策略 。 当 A 集群可用性下降时 , 根据 AB 的 RT 质量 , 动态切换一定数据到B集群 , 以保证数据流量均衡 。 下图为 HBase 双集群架构 。 右侧是离线 , 以天为单位 , 通过调度框架拉起一个 DAG 进行计算 。 DAG 的输出经过两层串行的 HBase 的 Sink , 串行可以保证数据先写完 A 再写 B 。 运行时态中通过 Flink、AsyncIO 方式 , 通过两层 HystrixClient 。 第一层 HystrixClient 主要对第二层 HystrixClient HBase 的 RT 通信质量进行收集 , 根据 RT 通信质量将流量动态分发到两套 HBase 集群中 。 在 A 集群稳定性很好时 , 流量都在 A 集群跑 。 当 A 集群出现抖动 , 会根据失败率动态切换一定配比流量到 B 集群 。
文章插图4. 模型训练的实时 Pipeline
整个体系解决了 AI 模型训练预生成数据给模型的 Pipeline 。 展现和点击通过 BSQL 方案实现 Joiner 。 实时特征数据通过 BSQL 进行计算 , 离线数据通过离线调度解决 。 维表的 Join 会通过 BSQL 构成 Pipeline , 从而给机器学习团队 Instances 流 , 训练模型 , 产出模型 。
文章插图04
未来的发展与思考
1. Saber-基础功能完善
越来越多人使用平台时 , 基础运维是最为关键的 。 Saber 平台将会完善 SQL IDE 开发 , 如提供更丰富的版本管理、上下线、任务调试、资源管理、基础操作等 。 同时将丰富化作业运维 。 包括 SLA、上线审批、优先级、各类系统监控指标、用户自定义指标告警、作业 OP 操作等 。
2. Saber-应用能力提升
Saber 应用能力将会向 AI 方向不断演进 。 例如模型训练的工程化方面 , 将引入实验维度概念 , 通过实验拉起 SQL Pipeline 。 同时将为做模型训练的同学统一流、批 SQL 复用 。 并且进行模型实验效果、评估、预警等 。 实时特征的工程化方面 , 将会支持多特征复合计算 , 涵盖特征计算、存储、查询等多个场景 。
作者:郑志升 bilibili 大数据实时平台负责人
- 计算机学科|机器视觉系统是什么
- 好友聊天|《QQ》能量值计算规则
- 研发|腾讯成立云计算西安分公司,将成总部之外最大云研发中心
- 动手做|动手做一个最简单的加法计算器
- 核磁共振|研发用于教研的核磁共振量子计算机,「量旋科技」还想在超导量子技术上取得突破
- 肇观|肇观电子视觉芯片每秒最快可计算181帧(张)视频/图片
- SK|SK电讯推出自研AI芯片SAPEON X220 深度学习计算速度是常用GPU 1.5倍
- 顶尖的计算机专家,会采用何种方式来看待这个世界
- 更改计算机待机睡眠状态时间方法,电脑设置关闭显示器时间教程
- 腾讯最重要的云研发中心之一——腾讯云计算(西安)有限责任公司揭牌
