Apache|Uber 大规模运行 Apache Pinot实践( 五 )
热点
我们面临的另一个挑战是,由于段分配策略对热点的潜在影响。默认情况下,Pinot 通过为分配最少的主机分配一个新段来平衡服务器之间的段。因此,在集群扩展的情况下,可以在新添加的服务器中创建最近的段。为环节这一问题,我们在集群扩展后运行表以重新平衡。
将 Pinot 与段存储去耦合
在段深度存储的操作过程中,我们发现当前的 LLC 协议存在两个主要问题:
第一个问题特别严重,因为我们的许多用户希望在数据先限度方面有较高的 SLA(对于第 99 个百分位数,少于 5 分钟)。在 Uber 内部,我们已经见过一些情况,HDFS 由于维护或宕机而无法使用长达一个小时左右的情况。这违反了我们所有重要实时表的 SLA。实际上,HDFS 有自己的 SLA,并且可以独立于 Pinot 发生故障。为解决这个严格的依赖关系问题,我们提出了对 LLC 的重大改进,以便即使深度存储停机长达几个小时,它也可以继续实时获取。在深度存储停机期间,该方案利用对等服务器存储来下载段。该方案已经得到了社区的批准,代码已经完成,目前正在测试中。
结论
总体而言,我们在使用 Apache Pinot 方面的经验非常棒。在 Uber 内部,它已经成为解决大规模实时分析用例的关键技术。高效的内存索引和列压缩有助于降低存储成本。内置的多租户特性以及节点和租户易于维护,运行成本低。此外,围绕着 Pinot 的 Apache 社区非常热情,参与度很高。我们将继续投资 Pinot,并计划在未来的项目中与社区合作,如 Pinot Upserts、联合段存储和查询、智能索引等。
关于 Apache Pinot
如果你有兴趣了解更多关于 Apache Pinot 的信息,请访问以下资源:
作者介绍:
Yupeng Fu,Uber 数据团队软件工程师,领导多个流媒体团队构建可扩展。可靠和高性能的流媒体解决方案。他是 Apache Pinot 的贡献者。
Girish Baliga,在 Uber 管理 Pinot、Flink 和 Presto 团队。目前正在帮助团队构建基于 Pinot 的全面自助实时分析平台,为关键业务的外部仪表板和指标提供支持。他是 Presto Linux 基金会管理委员会的主席。
Ting Chen,Uber 数据团队软件工程师,流分析团队的技术主管,其任务是为 Uber 产品和客户端提供快速、可靠的实时见解。他是 Apache Pinot 的贡献者。
Chinmay Soman,曾是 Uber 数据团队软件工程师。他曾领导流媒体平台团队,其任务是为 Uber 的所有消息传递、流媒体处理和 OLAP 需求构建一个可扩展的平台。他是 Apache Pinot 的贡献者。
【 Apache|Uber 大规模运行 Apache Pinot实践】关注我并转发此篇文章,私信我“领取资料”,即可免费获得InfoQ价值4999元迷你书,点击文末「了解更多」,即可移步InfoQ官网,获取最新资讯~
- 全自动|马斯克:特斯拉两周内大规模推送全自动驾驶(FSD)测试版
- 蔚来和小鹏|小鹏蔚来大规模断网,最后背锅的竟是中国移动
- 小基站带来新机遇!明年5G大规模室内建设将开始
- 大规模分布式强化学习基础架构Menger, 大幅提高真实任务的学习效率
- 腾讯云造了一个“智慧胶囊”,打开了5G大规模应用的大门
- Kubernetes 运维小记:node 为系统保留最低资源
- 在kubernetes中部署企业级ELK并使用其APM
- 部署|亚马逊云服务推出简化Apache Airflow部署与使用的托管服务
- Kubernetes上对应用程序进行故障排除的技巧
- 环闪|华为Mate40Pro环闪保护壳颇具创意,友商或大规模模仿
