购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

监控篇
底层逻辑的艺术

监控系统是我们识别服务是否正常的重要工具,它可以用如下两个比较贴切的词语来形容,即未雨绸缪和临危不乱。

未雨绸缪是对日常的监控信息进行体系化的分析,从中找出可能存在的隐患,在发生故障前提前修正,比如巡检系统和腾讯云云顾问。

临危不乱是对服务已经出现故障时的及时反馈,提醒团队做出及时的抉择,比如应急救火、止血回滚。

针对这两大类用途,我们又将监控系统分为3个体系:业务监控、应用监控、系统监控。

这3个体系的关注角度各有不同,配合使用可减少监控盲区(大部分技术团队的监控维度都是在迭代中不断扩充的,并且有不少监控维度是在问题出现后的改进措施中新增的)。在SRE的金字塔理论中,我们把监控比作地基,是稳定性建设中必不可少的环节,基于对数据的敏感,可以减少事故的发生次数或缩短事故时长,因此作为想入局SRE的人,要能非常熟练地打造监控体系。请别误会,这可不是让你去学习某个监控软件,而是让你知道应该监控什么才能发现问题。

为了实现这三大监控体系,互联网孕育了很多极好的产品,比如Zabbix、Prometheus、ZipKin、SkyWalking,以及各大云厂商自带的监控服务等。这些产品都很棒,但介绍它们并不是本书的任务。监控是SRE金字塔的地基,它是与金字塔上层沟通的桥梁,如何发挥好这座桥梁的作用,是本篇重点表达的内容。 QGPkSZxhCMWSqlxqOOnt/dIiFJpRw/Zyk1M4P4GXyfVckIa373YBxdWhDhhzsL/Z

点击中间区域
呼出菜单
上一章
目录
下一章
×