Kubernetes实战（原书第2版）最新章节_布兰登·伯恩斯著

3.12 监控、日志和告警的最佳实践

以下是关于监控、日志和告警你应该采纳的最佳实践。

●监控节点和所有Kubernetes组件的利用率、饱和度以及错误率，还有应用的每秒接受的请求数、失败请求数以及请求的耗时。

●使用黑盒方式监控系统的状况，而不是预测系统的运行状况。

●使用白盒方式检查系统及其内部状况。

●实施基于时序的度量来获得更高精度的指标，同时能够让你对应用的行为有更加深入的了解。

●使用像Prometheus这样提供了关键标记的高维监控系统，能为问题的症状给出更好的信号。

●使用平均值来可视化基于真实数据的周期性小计和指标，使用总值来可视化特定指标的分布。

●应该将日志记录与指标监控结合使用，以全面了解环境的运行状态。

●注意不要存储30～45天及以上的日志，如果确有需要，请使用更为廉价的资源来进行长期归档。

●限制采用边车模式进行日志转发，因为它们会使用更多资源。应该选择基于DaemonSet的日志转发器，同时应用的日志应该被发送到标准输出（STDOUT）。

●请注意告警疲劳，因为它会导致人员和流程出现不良的实践。

●持续地对告警逐步改进，接受告警并不总是完美的现实。

●为影响SLO和客户体验的状况发出告警，而不需要为不需人工干预的临时问题发出告警。