微服务环境如何设计用户友好的监控系统?( 四 )


告警不及时处理常见情况:

  • 告警没有触达实际责任人
  • 告警接收人不清楚告警严重程度 , 疏忽相关告警处理 。
第一种情况与监控线下治理结合 , 确保告警准确到相关责任人 。 第二种情况可以增加其它维度告警补充 。 如系统层告警增加业务层告警补充 。 当业务开发收到系统层告警 , 不清楚严重程度 , 此时若业务层告警显示系统关键输出指标异常告警 , 就能引起相关人员重视 。 尽量避免头痛医头 , 脚痛医脚 。
2. 结合异常恢复检测对告警收敛 , 合理取消业务恢复提醒 , 形成告警触发立刻处理 , 不需处理尽量不触发原则 。 短时间 (如 1 分钟) 恢复不影响业务(如查询服务) , 可不触发告警 , 仅在系统记录 , 供相关运营人员定时 review 。 若反复发生则触发告警 。 关键服务 (如跟用户相关写操作) 异常一旦发生 , 立刻触发告警 , 避免等业务恢复 。
3. 平衡告警灵敏性和完整性 。 敏感并且意义明确的告警 (如内部服务没有权限调用) 可以秒级触发告警 。 对一些复杂告警 (如内部多个模块超时场景) , 适当延迟 , 给出超时原因 。 以免相关人员即使第一时间收到不完整告警信息 , 还需花更多时间定位异常原因 。
4. 报警触达到责任人时 , 图形展示当前变化趋势以及历史变化趋势 , 并能进行实时查询 。
一个用户友好的监控系统不但需持续技术升级改进 , 也需与用户一起协作建立合理流程规范 。
延伸阅读:
实践微服务六年 , 我获得了这些心得体会-InfoQ
日调 1000 亿 , 腾讯微服务平台的架构演进-InfoQ
关注我并转发此篇文章 , 私信我“领取资料” , 即可免费获得InfoQ价值4999元迷你书 , 点击文末「了解更多」 , 即可移步InfoQ官网 , 获取最新资讯~