n9e接收数据量骤减,请教下排查思路

Viewed 42

描述

线上n9e的夜莺大盘现实,5.10凌晨2点以后,n9e接收到的数据量开始骤降,后续一直稳定不变。
但是线上并没有进行迁移停机等操作,数据量减少后也没有出现大面积告警。

请教下,这种情况应该如何排查原因?

image.png

image.png

尝试排查

1.检查了n9e server的日志,异常出现时间段没有相关ERROR信息
2.尝试检查队列长度,以下自监控指标无法反应变化原因
image.png

1 Answers

目前在n9e没有找到观测具体指标丢失的功能。但是promql原生可以配置并告警。
例如 absent_over_time(监控指标[5m]) > 0
对于某些关键指标,建议还是加一下。