目前,我有一个AlertManager配置,它仅在“ probe_success
”指标为0 时发送警报。
我不知道如何将警报规则的“ ”字段中的probe_http_status_code
度量与“ probe_success
”度量结合起来,expr
以防止probe_success
由于429(到许多请求)HTTP而导致度量值为0 时触发警报。状态码。
我想使用下面的类似问题来解决这个问题,但是没有运气。
如何在Prometheus查询中“联接”两个指标?
“ probe_success
”和“ probe_http_status_code
”都是Blackbox Exporter指标。
您可能想要的是valid_status_codes,因此您可以指定429(加上任何预期的2xx代码)为有效,probe_success
当它们发生时将保持为1。
我考虑过这一点,这是一个适当的解决方案,但是我不认为Prometheus /出口商有责任决定(在这种情况下)状态码是否有效。我认为是AlertManager负责该决定以及是否对该警报进行警告。你怎么看?
那根本不是Alertmanager的角色,警报到达时已经在触发。黑盒导出器具有许多选项来确定什么被视为失败,这是一种情况。
AlertManager是一个错误,我的意思是Prometheus中的警报规则。确定什么是探针故障,什么不是黑匣子导出器的责任,而不是Prometheus中的警报条件。谢谢!