categraf采集上来的数据时间不对,导致prometheus自己采集任务上来的数据报out of bounds

Viewed 96

图片.png
现象如上,prometheus大量报out of bounds,大量的告警规则都告警。
原因:一台服务器的时间不对,新部署categraf采集上来的数据写入prometheus后,导致prometheus自己采集任务上来的数据都认为过时而写入失败。
处理: 修正这台服务器的系统的时间,删除prometheus的tsdb数据目录,全部重新来
后续部署categraf的时候一定要主要系统的时间,不然一不小心把整个监控全搞挂,惊心动魄啊

1 Answers

优化方案:
请教了夜莺团队,在n9e的配置有个配置项,可以让categraf采集上来的数据统一用n9e的系统时间,配置下如下:
image.png
打开注释,修改为:ForceUseServerTS = true