闭环管理下的银行监控系统改造


闭环管理下的银行监控系统改造
本文插图
作者介绍
钱立镓 , 负责哈尔滨银行监控系统管理和建设 , 具有丰富的监控系统建设、运维及项目管理经验 。 参与哈尔滨银行统一监控平台、应用性能监控平台、自动化管理平台等多个运维管理平台架构设计及建设工作 。 对数据中心监控体系建设、自动化运维有深入研究和应用 。
前言
近几年来 , 随着哈尔滨银行数字化建设发展 , 银行系统引进了大数据及人工智能技术建设 , 同时银行监控管理需要整体优化管控策略和监测工具 。
立足国内监控政策环境和自身运营实际 , 我行现提出“监-管-控”闭环监控系统改造策略 , 从监控系统、一体化运营管理平台、自动化控制三个方面系统推进 , 以期为银行监控管理的发展提供可供借鉴的发展思路 。
大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战 , 哈尔滨银行服务主体对业务可用性要求不断提高 , 需要不断优化现有监控平台及监控策略 , 需要形成监控标准化体系 。 因此 , 监控管理亟待更新监控管理办法 , 制定相适应的管控策略 。
一、哈尔滨银行监控管理系统升级改造的背景
我行监控系统面临的主要问题有:

  • 银行监控系统整体来看 , 普遍存在不同监控平台监控策略、告警事件、数据归集分散的问题;
  • 监控工具方面 , 监控控工具展示的更多的是面向专家和技术人员使用的监控视图 , 对ECC一线整体监控可视化需求的实现不足;
  • 【闭环管理下的银行监控系统改造】业务监控方面 , 自动化巡检及处置流程覆盖面积小 , 覆盖场景单一 , 缺乏有效的自动化开发管理流程 。
由此 , 我行在现有问题的基础上积极探索解决方案 , 我行根据监控数据现实及服务需求制定了“监-管-控”一体化的闭环管理方案 , 以期为哈尔滨银行的监控系统改造提供切实可行的方案 。
二、“监-管-控”闭环监控系统方案内容
1、监:监控系统
监控系统重点改进主要涉及监控信息采集及事件处理流程、应用系统的改造、基础设施故障的告警事件、应用和业务场景故障的应急响应等几个方面 。 具体监控内容如下:
  • 以ITM和ZABBIX为监控信息采集核心 , 通过syslog和snmp等标准协议 , 将存储、网络设备、安全防护等专有设备的监控事件统一归集管理 , 利用Omnibus形成标准的监控告警事件 , 与短信平台、ITIL平台进行数据集成 , 形成标准的事件处理流程 。
  • 对应用系统进行改造 , 形成格式化的交易流水日志 , 并通过大数据分析平台对应用日志进行统一采集、归档、展示分析;添加应用心跳监测日志 , 确保在不同交易特征时段都可实时掌握应用可用性数据 , 保障监控信息可靠、有效 。
  • 针对基础设施故障 , 开发报警事件架构分布图 , 根据系统架构层级关系、告警事件及应用映射快速定位 , 并与自动化工具集成 , 形成联动 , 如:存储IO故障 , 应用缓慢的根本原因定位 , 采取容灾切换规避等 。
  • 针对应用或业务场景故障 , 制作基于业务日志的实时故障分析展现视图 , 如:ATM交易流水中 , 他代本报错 , 是全部他行报错 , 还是部分他行报错 , 处理的机制不同等 。
  • 提供针对告警事件、业务日志的AIOps智能化分析功能 , 针对告警事件和日志异常进行告警提示 , 协助管理人员快速发现、定位故障 。
2、管:一体化运维管理平台
一体化运维管理平台主要涉及的三个方面内容有: