时序数据异常检测做到这种段位,还怕什么告警风暴( 二 )
图1 AIOps能力框架图
2、关联团队建设
AIOps团队内部人员根据职能可分为三类团队 , 他们在AIOps相关工作中分别扮演不同的角色 , 三者缺一不可:
- SRE团队:SRE能从业务的技术运营中 , 提炼出智能化的需求点 , 在开发实施前能够考虑好需求方案 , 产品上线后能对产品数据进行持续的运营;
- 开发工程师(稳定性保障方向)团队:开发工程师负责进行平台相关功能和模块的开发 , 以降低用户的使用门槛 , 提升用户的使用效率 。 根据企业AIOps程度和能力的不同 , 运维自动化平台开发和运维数据平台开发的权重不同 , 在工程落地上能够考虑好健壮性、鲁棒性、扩展性等 , 合理拆分任务 , 保障成果落地 。
- 算法工程师团队:他们针对来自于SRE的需求进行理解和梳理 , 对业界方案、相关论文、算法进行调研和尝试 , 完成最终算法落地方案的输出工作 , 并不断迭代优化 。
文章插图图2 AIOps关联团队关系图
3、演进路线
当前 , 我们在质量保障方面的诉求最迫切 , 服务运维部先从故障管理领域探索AIOps实践 。
在故障管理体系中 , 从故障开始到结束主要有四大核心能力:
- 故障发现包含了指标预测、异常检测和故障预测等方面 , 主要目标是能及时、准确地发现故障;
- 告警触达包含了告警事件的收敛、聚合和抑制 , 主要目标是降噪聚合 , 减少干扰;
- 故障定位包含了数据收集、根因分析、关联分析、智能分析等 , 主要目标是能及时、精准地定位故障根因;
- 故障恢复部分包含了流量切换、预案、降级等 , 主要目标是及时恢复故障 , 减少业务损失 。
文章插图图3 故障管理体系核心能力关系图
其中在故障管理智能化的过程中 , 故障发现作为故障管理中最开始的一环 。 在当前海量指标场景下 , 自动发现故障和自动异常检测的需求甚为迫切 , 能极大地简化研发策略配置成本 , 提高告警的准确率 , 减少告警风暴和误告 , 从而提高研发的效率 。
除此之外 , 时序数据异常检测其实是基础能力 , 在后续告警触达、故障定位和故障恢复环节中 , 存在大量指标需要进行异常检测 。
所以将故障发现作为当前重点探索目标 , 解决当前海量数据场景下人工配置和运营告警策略、告警风暴和准确率不高的核心痛点 。
文章插图图4 AIOps在故障管理方面的演进路线
整个AIOps体系的探索和演进路线如上图4所示 。 每个环节均有独立的产品演进 , 故障发现-Horae(美团服务运维部与交易系统平台部共建项目)、告警触达-告警中心、故障定位-雷达、故障恢复-雷达预案 。
三、AIOps之故障发现
1、故障发现
从美团现有的监控体系可以发现 , 绝大多数监控数据均为时序数据(Time Series) , 时序数据的监控在公司故障发现过程中扮演着不可忽视的角色 。
无论是基础监控CAT[2]、MT-Falcon[3]、Metrics(App端监控) , 还是业务监控Digger(外卖业务监控)、Radar(故障发现与定位平台)等 , 均基于时序数据进行异常监控 , 来判断当前业务是否在正常运行 。
文章插图图5 时序数据种类多样性
然而从海量的时序数据指标中可以发现 , 指标种类繁多、关系复杂(如上图5所示) 。 在指标本身的特点上 , 有周期性、规律突刺、整体抬升和下降、低峰期等特点;在影响因素上 , 有节假日、临时活动、天气、疫情等因素 。
原有监控系统的固定阈值类监控策略想要覆盖上述种种场景 , 变得越来越困难 , 并且指标数量众多 , 在策略配置和优化运营上 , 人力成本将成倍增长 。
若在海量指标监控上 , 能根据指标自动适配合适的策略 , 不需要人为参与 , 将极大的减少SRE和研发同学在策略配置和运营上的时间成本 , 也可让SRE和研发人员把更多精力用在业务研发上 , 从而产生更多的业务价值 , 更好地服务于业务和用户 。
2、时序数据自动分类
在时序数据异常检测中 , 对于不同类型的时序数据 , 通常需要设置不同的告警规则 。
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”
