删除ident后,异常报警

Viewed 34
  1. 版本信息:categraf 0.3.18 n9e v6.5.0

  2. 现象:
    2.1 当需要下线主机时,删除ident。此时主机进入未分组列表,收集到的metrics都不带busigroup。
    2.2 其他busigroup配置有报警规则 disk_used_percent{} > 80。
    2.3 从未分组列表删除该ident,主机关机。 然后所有配置了的磁盘报警规则都会触发(该主机磁盘确实超过了80%使用量)

  3. 通过f12,查看活跃告警对应的rule id等信息,之后检查rule配置情况,均未发现异常,打开了“仅在本业务组生效”

  4. 此情况100%触发。感觉像是刚刚删除掉的ident残留的metrics触发了报警。

1 Answers

根据你的描述,我理解了一下,删除机器列表中的标识(ident)并下线机器后,在活跃告警列表中可能仍然存在下线的主机的告警。这可能导致误认为告警触发了。实际上,活跃告警的恢复条件与告警规则中设置的持续时长相关。只有当一段时间内没有相应的指标后,系统才会认为告警已经恢复。

另外,根据描述,在机器列表中删除了ident并关机,但仍然触发了仅在本业务组中生效的告警,这与预期不符。然而,我目前尚未能够复现这种情况(通过对比停机前后的历史告警,下线的机器并没有再次触发告警),方便提供更多细节吗。

比如我要下线A组的一台服务器1.1.1.1, 这个机器本身磁盘是超过阈值的,但是对于这个组来说,磁盘不是问题,于是我没有配置磁盘报警。但是在其他组,比如B C D,他们对磁盘报警有需求,于是配置的有。 这个时候,在活跃告警里面什么都没有的。

当我从A组里面删除1.1.1.1后,机器到了未归组机器列表,这个时候也没有触发任何告警。于是,我就 从系统里面彻底删除机器,并在主机上做关机操作。

如上操作完成后,B C D组开始收到1.1.1.1 这个机器的磁盘告警,这个告警本不应该发给他们。

目前我的解决方案是给B C D组设置磁盘告警的时候指定busigroup。但这只是权宜之计。

给B C D组设置磁盘告警的时候指定busigroup,是指之前没有设置仅在本业务组生效吗

设置了,但是按照当前的情况,设置了但并没有预想的效果