问题描述: 当重启某一个机器后, 心跳丢失的告警一直没有恢复
版本: v6.7.3
排查
- 检查机器categraf无报错日志
- 检查web端, 基础设施中, 该实例的更新时间为最新, 没有偏差
- 检查n9e日志, 没有异常的error日志
- 检查redis中n9e_meta_xxxxx这个key, 查看其中 unixtime 字段是最新的, 没有偏移
- 心跳丢失告警的配置规则如下
该v6.7.3版本之前没有遇到过这个问题, 都是可以正常恢复的, 前几天曾尝试更新到了v7.0-beta版本, 发现出现这个问题后, 曾经重启n9e实例未能恢复, 然后回退到v6.7.3版本后,告警仍未恢复。
由于条件限制目前还没有测试在v6.7.3版本下, 新关机的实例是否存在类似问题, 等后续有条件我再补充下
诉求:
看看有没有同版本的小伙伴遇到类似问题
额外补充: 目前还配置了告警订阅, 报警时候, 会带有sre=xxx标签, 然后我配置了一条订阅标签sre=xxx的额外发送给另外一个业务团队, 不确认是不是也和这个有关系