背景描述:根据业务需要,配置了TP99对比昨天的告警,告警表达式如下:
(
floor(
histogram_quantile(0.99, sum by (app,service,method,host,hostname,le) (rate(zeus_rpc_seconds_bucket{app=~"im-logic-chat",method="unSubscribe",service="ImChatLogicService",kind="server",deploy_lane=~"default|"}[1m])))*1000
)
-
floor(
histogram_quantile(0.99, sum by (app,service,method,host,hostname,le) (rate(zeus_rpc_seconds_bucket{app=~"im-logic-chat",method="unSubscribe",service="ImChatLogicService",kind="server",deploy_lane=~"default|"}[1m] offset 1d)))*1000
)
) >100
zeus_rpc_seconds_bucket这个桶记录了接口的请求延迟,单位为秒,用今天的延迟减去昨天的延迟(结果乘1000换算为毫秒),如果差值大于100,那么证明接口的延迟大于100ms,vmalert发出告警
现象:
在vmalert中设置的告警触发,value为29981,
减数(今天的值):
被减数(昨天的值):
在VictoriaMetrics中使用vmalert的查询结果:
使用VictoriaMetrics查询结果并无该值,很奇怪为什么vmalert会算出这样一个数
而且无论使用grafana配置VictoriaMetrics数据源,还是使用VMUI进行查询,结果都未发现vmalert告警中的异常值
已检查过vmalert查询数据源和grafana查询数据源,可以确保是同一个数据源