vmalert告警数据异常

Viewed 24

背景描述:根据业务需要,配置了TP99对比昨天的告警,告警表达式如下:

(
  floor(
    histogram_quantile(0.99, sum by (app,service,method,host,hostname,le) (rate(zeus_rpc_seconds_bucket{app=~"im-logic-chat",method="unSubscribe",service="ImChatLogicService",kind="server",deploy_lane=~"default|"}[1m])))*1000
    ) 
    -
  floor(
    histogram_quantile(0.99, sum by (app,service,method,host,hostname,le) (rate(zeus_rpc_seconds_bucket{app=~"im-logic-chat",method="unSubscribe",service="ImChatLogicService",kind="server",deploy_lane=~"default|"}[1m] offset 1d)))*1000
    )
) >100

zeus_rpc_seconds_bucket这个桶记录了接口的请求延迟,单位为秒,用今天的延迟减去昨天的延迟(结果乘1000换算为毫秒),如果差值大于100,那么证明接口的延迟大于100ms,vmalert发出告警

现象:
在vmalert中设置的告警触发,value为29981,
image.png
减数(今天的值):
image.png
被减数(昨天的值):
image.png
在VictoriaMetrics中使用vmalert的查询结果:
image.png
使用VictoriaMetrics查询结果并无该值,很奇怪为什么vmalert会算出这样一个数
而且无论使用grafana配置VictoriaMetrics数据源,还是使用VMUI进行查询,结果都未发现vmalert告警中的异常值
已检查过vmalert查询数据源和grafana查询数据源,可以确保是同一个数据源

0 Answers