主机状态告警异常

Viewed 50

windows服务器,监控数据流向如下:

windows_exporter采集监控数据---》prometheus----》夜莺v6---->时序库


发现主机down了之后,监控数据没有了,但是夜莺v6仍然存在心跳,导致没有告警产生

存在心跳图:
image.png

监控确实没数据相关图:
image.png
image.png

经排查,v6仍然能从Prometheus拿到心跳,无论Prometheus是否传输监控数据过来

2 Answers

在即时查询中查看一下最近上报的数据呢,我觉得肯定是还有数据在上报才会导致主机更新时间。

选异常时间点,最近1分钟的10条数据,topk(10, last_over_time({ident="10.0.100.168"}[1m]))

根据上述描述,数据通过n9e的remoteWrite接口来转发数据,当上报的数据解析,得到时序指标的数量大于0,就会通过n9e来转发时序数据,同时更新对应主机在机器列表的更新时间(另外如果采集器是Categraf并开启心跳配置,心跳接口也会更新)。router_remotewrite

请问要怎么解决?因为你们调整了主机down模式,现在很多问题

image.png


这边停掉agent,执行 topk(10, last_over_time({ident="10.0.100.168"}[1m])) 确实能看到数据,但是不知道怎么解决?主机down这个事情很严重,如果没有告警,影响很大

从你截图来看有个up指标用这个呢,或者保持采集目标和采集器agent同生命周期,用host类型告警

请问下这个有资料么,怎么设置采集目标和agent同生命周期,我查了没查到。。。

我觉得windows环境话,放到同一个主机里呗,这样主机关机,采集agent也停了