



以下是关于监控、日志和告警你应该采纳的最佳实践。
●监控节点和所有Kubernetes组件的利用率、饱和度以及错误率,还有应用的每秒接受的请求数、失败请求数以及请求的耗时。
●使用黑盒方式监控系统的状况,而不是预测系统的运行状况。
●使用白盒方式检查系统及其内部状况。
●实施基于时序的度量来获得更高精度的指标,同时能够让你对应用的行为有更加深入的了解。
●使用像Prometheus这样提供了关键标记的高维监控系统,能为问题的症状给出更好的信号。
●使用平均值来可视化基于真实数据的周期性小计和指标,使用总值来可视化特定指标的分布。
●应该将日志记录与指标监控结合使用,以全面了解环境的运行状态。
●注意不要存储30~45天及以上的日志,如果确有需要,请使用更为廉价的资源来进行长期归档。
●限制采用边车模式进行日志转发,因为它们会使用更多资源。应该选择基于DaemonSet的日志转发器,同时应用的日志应该被发送到标准输出(STDOUT)。
●请注意告警疲劳,因为它会导致人员和流程出现不良的实践。
●持续地对告警逐步改进,接受告警并不总是完美的现实。
●为影响SLO和客户体验的状况发出告警,而不需要为不需人工干预的临时问题发出告警。