心跳丢失无法恢复

Viewed 44

问题描述: 当重启某一个机器后, 心跳丢失的告警一直没有恢复
版本: v6.7.3

排查

  1. 检查机器categraf无报错日志
  2. 检查web端, 基础设施中, 该实例的更新时间为最新, 没有偏差
  3. 检查n9e日志, 没有异常的error日志
  4. 检查redis中n9e_meta_xxxxx这个key, 查看其中 unixtime 字段是最新的, 没有偏移
  5. 心跳丢失告警的配置规则如下

image.png

该v6.7.3版本之前没有遇到过这个问题, 都是可以正常恢复的, 前几天曾尝试更新到了v7.0-beta版本, 发现出现这个问题后, 曾经重启n9e实例未能恢复, 然后回退到v6.7.3版本后,告警仍未恢复。
由于条件限制目前还没有测试在v6.7.3版本下, 新关机的实例是否存在类似问题, 等后续有条件我再补充下

诉求:
看看有没有同版本的小伙伴遇到类似问题

额外补充: 目前还配置了告警订阅, 报警时候, 会带有sre=xxx标签, 然后我配置了一条订阅标签sre=xxx的额外发送给另外一个业务团队, 不确认是不是也和这个有关系

1 Answers

忽略, v7.0.0-beta.1 修复了这个bug,后续提问题前还是应该看一下github。。。