Prometheus 告警处理

告警能力在 Prometheus 的架构中被划分成两个独立的部分。通过在 Prometheus 中定义 AlertRule(告警规则),Prometheus 会周期性的对告警规则进行计算,如果满足告警触发条件就会向 Alertmanager 发送告警信息。

Alertmanager 特性

Alertmanager 作为一个独立的组件,负责接收并处理来自 Prometheus Server(也可以是其它的客户端程序)的告警信息。

Alertmanager 除了提供基本的告警通知能力以外,还主要提供了如:分组抑制以及静默等告警特性,

分组(group)

分组机制可以将详细的告警信息合并成一个通知。在某些情况下,比如由于系统宕机导致大量的告警被同时触发,在这种情况下分组机制可以将这些被触发的告警合并为一个告警通知,避免一次性接受大量的告警通知,而无法对问题进行快速定位。

告警分组,告警时间,以及告警的接受方式可以通过 Alertmanager 的配置文件进行配置。

抑制(inhibit)

抑制是指当某一告警发出后,可以停止重复发送由此告警引发的其它告警的机制。

抑制机制同样通过 Alertmanager 的配置文件进行设置。

静默(silence)

静默提供了一个简单的机制可以快速根据标签对告警进行静默处理。如果接收到的告警符合静默的配置,Alertmanager 则不会发送告警通知。

静默设置需要在 Alertmanager 的 Werb 页面上进行设置。

最后更新于