查询无数据导致误报警问题

Viewed 7

已经升级到最新版本7.4,最近发现个问题在数据缺失时引发了误告警,
规则是topk(1,namespace:cephfs_old_usage) > 94 or cephfs_osd_usage > 88,
查看告警详情触发时值:+Inf
查看监控图确实没有查询到数据,但却发出了告警

1 Answers

告警之后你去查看Graph视图,是 range query,告警时采用的是 instant query,夜莺的告警逻辑和 Prometheus 一致,在文档里有 FAQ 讲过,夜莺是把 promql 直接扔给了 TSDB,TSDB 在那个时刻确实返回了 +Inf,所以导致告警。