target_up会识别到down状态的主机进行告警

Viewed 68

问题描述:

target_up会识别到down状态的主机进行告警,且dow状态下的主机没有归属到任何一个对象里面。

求助:
如何规避这种down状态下的主机?

尝试过:
busgroup,因down的主机也有busgroup,所以依然会触发;
是否支持两个标签同时满足告警,比如我再加一个cpu_load的标签会过滤掉 dowwn状态的主机吗?

image.png
image.png

3 Answers

target_up 就是用于机器失联(DOWN)告警的

如果不想告警或降低告警频率可以关闭告警或者调整告警时间

可能是我描述不清楚,比如有一台主机app-10.0.1.2,在5.1成功接入到n9e,并归类到业务组a,此台主机的作用为压测时使用,5.5压测结束,将10.0.1.2主机关机并从业务组a移除,移除后到未归类对象,此时app-10.0.1.2主机的状态为down状态。5.7开了一台新主机10.0.1.5,加入到业务组a。

我在一个空业务组,也就是这个业务组没有绑定任何主机对象。新建了告警规则,prom告警条件为max_over_time(target_up{ident=~".app.",busigroup=~".*"}[120s]) == 0,等待一会儿后,活跃告警出现对象失联告警,然后查阅发现失联告警为down状态且不属于任何业务组的主机。

这里我昨天有一个思考,有可能是空业务组识别的是所有主机对象包括未分组的主机。想要解决这个问题除了以下方法外,有没有其他办法更高效的解决:
1.将所有down状态的主机全部删除,但删除后,想要查询这些主机的历史数据,就没法查询到。
2.将告警规则设置在每一个业务组里面,只针对这个业务组生效。但如果有上百上万的业务组,一旦告警规则有变化,这上百上万的业务组都要响应修改。比较麻烦(虽然可以从数据库入手)