🙏机器在线状态用哪个告警更精准

Viewed 152

背景:实现机器状态告警
现状:采集器cat,数据流经n9e(v5),用target_up告警
问题:告警上报有3min左右延迟,或者机器重启时间太快,没有触发告警
疑问:用input.ping能实现状态告警吗,告警字段怎么配置?还是要用blackbox_exporter?

1 Answers

input.ping 和 blackbox_exporter 原理一样,都是通过发 icmp 包对目标机器做探活,采集频率可以高一些,比如10s一次,这样机器宕机很快就可以发现。但是需要每增加一台机器就修改ping目标配置,比较麻烦,当然black_exporter可以引入consul之类的做服务发现,这就需要有个机器自动做新机器注册,挺麻烦的。

夜莺v5版本中的target_up指标也可以做告警,告警规则:max_over_time(target_up[130s]) != 1,执行频率10s,持续时长0秒,表示只要130s内机器都没有心跳就告警。如果想跟灵敏,可以把130s调成60s。