微服务环境如何设计用户友好的监控系统?( 四 )
告警不及时处理常见情况:
- 告警没有触达实际责任人
- 告警接收人不清楚告警严重程度 , 疏忽相关告警处理 。
2. 结合异常恢复检测对告警收敛 , 合理取消业务恢复提醒 , 形成告警触发立刻处理 , 不需处理尽量不触发原则 。 短时间 (如 1 分钟) 恢复不影响业务(如查询服务) , 可不触发告警 , 仅在系统记录 , 供相关运营人员定时 review 。 若反复发生则触发告警 。 关键服务 (如跟用户相关写操作) 异常一旦发生 , 立刻触发告警 , 避免等业务恢复 。
3. 平衡告警灵敏性和完整性 。 敏感并且意义明确的告警 (如内部服务没有权限调用) 可以秒级触发告警 。 对一些复杂告警 (如内部多个模块超时场景) , 适当延迟 , 给出超时原因 。 以免相关人员即使第一时间收到不完整告警信息 , 还需花更多时间定位异常原因 。
4. 报警触达到责任人时 , 图形展示当前变化趋势以及历史变化趋势 , 并能进行实时查询 。
一个用户友好的监控系统不但需持续技术升级改进 , 也需与用户一起协作建立合理流程规范 。
延伸阅读:
实践微服务六年 , 我获得了这些心得体会-InfoQ
日调 1000 亿 , 腾讯微服务平台的架构演进-InfoQ
关注我并转发此篇文章 , 私信我“领取资料” , 即可免费获得InfoQ价值4999元迷你书 , 点击文末「了解更多」 , 即可移步InfoQ官网 , 获取最新资讯~
- 无边界办公——WebDAV文件共享服务构建
- C语言开发环境
- 第2天 | 12天搞定Python,运行环境(详细步骤)
- Chiplet如何开拓半导体技术的未来
- 苹果服务业务也赚钱:第四季度仍将保持两位数增速
- 如何编写JAVA小白第一个程序
- Nginx服务器屏蔽与禁止屏蔽网络爬虫的方法
- 阿里云数智服务创新挑战赛落幕 南京大学夺冠
- 如何进行不确定度估算:模型为何不确定以及如何估计不确定性水平
- 学大数据是否有前途 如何系统掌握大数据技术