闭环管理下的银行监控系统改造( 二 )
- 形成监控对象—监控KPI—监控策略—监控覆盖(实例化)的监控档案管理体系 , 针对监控事件和监控策略进行编码 , 形成结构化的告警事件管理和策略管理 。
- 与CMDB集成数据 , 并形成可由容灾管理平台调用的资产管理数据源 , 向各应用平台提供资产及监控策略管理数据 。 如下图所示:
本文插图
一体化运维管理平台与各运维管理工具架构图
3、控:自动化控制
自动化控制主要从以下三个方面进行改造升级:
- 针对各类报警事件及其相关场景 , 开发对应的巡检处置流程 , 目前我行已陆续完成整理了十六大类的判别场景手册 。 例如网银系统交易响应时间过长报警 , 配合中间件监控排查拥堵路径 , 定位拥堵路径后 , 关闭前端交易指示信号灯 , 重启应用进程 , 再打开前端交易指示信号灯 , 恢复交易路径正常运行 , 需工具实现固化 , 便于执行与管控 。
- 在现有流程的基础上开发标准化的容灾容错处置流程 , 形成标准化、自动化的容灾容错处置机制 , 开发自动化调度流程 , 针对多系统同时切换时的时序调度和逻辑关系进行线上化、自动化管理 。
- 一体化运维管理平台与自动化处置平台、容灾管理平台进行数据接口集成及调度任务集成功能 , 实现通过统一平台管理调度自动化任务 , 并将告警事件场景与对应的处置流程线上对接管理;同时能够针对巡检任务反馈数据展示巡检结果 。
通过细分化的专业视图将抽象的应用系统逻辑关系、基础设施与业务系统的关联关系等可视化 , 在大量报警事件同时产生时 , 可以直观的定位故障影响范围和报警事件优先级情况 , 帮助值机人员明确故障处置的优先级 , 提高关键故障的解决效率 。
监控策略自动化同步并线上管理可以最大程度上的保证数据的一致性和准确性 , 做到监控策略与监控对象匹配的实时更新 , 在保障监控对象来源(CMDB)数据准确的前提下 , 管理人员可以快速定位监控策略盲点 , 通过分析监控覆盖情况 , 有针对性的补充监控策略 。
我们通过不断的监控告警场景-自动化处置任务的开发积累 , 可以做到针对发生过的故障快速定位、快速处置 , 保障了应用系统的业务可用性 , 提升客户体验 。
通过一体化运维平台整合数据接口 , 作为监控体系内的数据中台 , 提升监控体系的数据治理能力 , 提高整体数据中心的数据一致性和管理效率;并通过一体化运维平台将整个“监-管-控”的三部分串联起来 , 形成一个有机的整体 , 打通监控管理的数据通道 , 实现“监-管-控”这一闭环管理流程 。
由于事件统一管理 , 所以海量的、格式化的监控运维事件可以作为AIOps的数据源 , 进行针对AIOps新技术的开发和探索 , 通过聚类算法等AI技术 , 对海量监控运维事件进行分析 , 帮助运维人员快速准确的发现、分析和定位问题 。
四、“监-管-控”闭环监控系统方案的未来趋势与展望
由于监控对象和监控策略的线上化管理 , 监控对象的来源主要是配置管理数据库(CMDB) , 监控策略的来源主要是监控系统自身 , 所以在监控策略实例化(监控对象与监控策略进行匹配)的过程中可以对双方的数据源进行二次复核 , 提高配置管理数据库的数据准确性 , 同时也可以增强监控策略的覆盖率;但该项工作可能需要定期的通过人工确认和复核 , 需要有与之相匹配的管理流程和人员定期跟进 。
自动化处置流程的开发是一个场景与处置流程的积累过程 , 可以理解为运维监控体系的流程化知识库 , 将报警事件-场景-处置流程自动化的串联起来后 , 通过不断完善整个数据中心的故障处置知识库 , 将尽可能多的故障场景纳入到自动化可控流程中来 , 既可以节省数据中心的人力成本 , 也可以提高数据中心的故障处置效率 。
- 银行|官宣!贵州一地这两天全部放假!
- 晨日科技捷报!晨日科技成功通过TATF16949质量管理体系认证
- 交叉|前富国银行高管因误导投资者而面临SEC指控
- 资金|经济回暖利润修复 机构看好银行业估值回升
- 资金|经济回暖利润修复,机构看好银行业估值在2021年迎来拐点
- 限售股|破发股浙商银行迎解禁洪峰,15股东超180亿市值上市流通
- 银行|普惠型小微企业 贷款余额创新高
- 银行|网上暴力重演?“杠精的自我实现,就是当搅局者”
- 股市|银行板块的优势不可比拟 哪家银行盈利更强机构更青睐?
- 北京市市场监督管理局|北京人注意!三批蔬菜均检出农药残留超标,快看有没有你常吃的!