购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.12 监控、日志和告警的最佳实践

以下是关于监控、日志和告警你应该采纳的最佳实践。

3.12.1 监控

●监控节点和所有Kubernetes组件的利用率、饱和度以及错误率,还有应用的每秒接受的请求数、失败请求数以及请求的耗时。

●使用黑盒方式监控系统的状况,而不是预测系统的运行状况。

●使用白盒方式检查系统及其内部状况。

●实施基于时序的度量来获得更高精度的指标,同时能够让你对应用的行为有更加深入的了解。

●使用像Prometheus这样提供了关键标记的高维监控系统,能为问题的症状给出更好的信号。

●使用平均值来可视化基于真实数据的周期性小计和指标,使用总值来可视化特定指标的分布。

3.12.2 日志

●应该将日志记录与指标监控结合使用,以全面了解环境的运行状态。

●注意不要存储30~45天及以上的日志,如果确有需要,请使用更为廉价的资源来进行长期归档。

●限制采用边车模式进行日志转发,因为它们会使用更多资源。应该选择基于DaemonSet的日志转发器,同时应用的日志应该被发送到标准输出(STDOUT)。

3.12.3 告警

●请注意告警疲劳,因为它会导致人员和流程出现不良的实践。

●持续地对告警逐步改进,接受告警并不总是完美的现实。

●为影响SLO和客户体验的状况发出告警,而不需要为不需人工干预的临时问题发出告警。 AIaQG9UpvlR9hrMdc/JWu5S+Ufu9Akj6Z9E9PZG4iTIV7adz3HSdbgdz/aIUtbF5

点击中间区域
呼出菜单
上一章
目录
下一章
×