主机状态告警异常

Question

windows服务器，监控数据流向如下：

windows_exporter采集监控数据---》prometheus----》夜莺v6---->时序库

发现主机down了之后，监控数据没有了，但是夜莺v6仍然存在心跳，导致没有告警产生

存在心跳图：

监控确实没数据相关图：

大禾 · Answer

在即时查询中查看一下最近上报的数据呢，我觉得肯定是还有数据在上报才会导致主机更新时间。

选异常时间点，最近1分钟的10条数据，topk(10, last_over_time({ident="10.0.100.168"}[1m]))

根据上述描述，数据通过n9e的remoteWrite接口来转发数据，当上报的数据解析，得到时序指标的数量大于0，就会通过n9e来转发时序数据，同时更新对应主机在机器列表的更新时间（另外如果采集器是Categraf并开启心跳配置，心跳接口也会更新）。router_remotewrite

jhtheoutsider · Answer

这边停掉agent，执行 topk(10, last_over_time({ident="10.0.100.168"}[1m])) 确实能看到数据，但是不知道怎么解决？主机down这个事情很严重，如果没有告警，影响很大