1、配置和告警规则如下:
histogram_quantile(0.99, sum(irate(http_server_requests_seconds_bucket{application="mixc-center-member-service"}[2m])) by (le))>3
2、告警触发数值如下:
3、使用时序指标查询结果如下:
告警规则导致应用监控误报警,有以下几个问题:
1、什么情况下会出现这种情况,监控平台检查无异常
2、如何解决类似误告警的问题
1、配置和告警规则如下:
histogram_quantile(0.99, sum(irate(http_server_requests_seconds_bucket{application="mixc-center-member-service"}[2m])) by (le))>3
2、告警触发数值如下:
3、使用时序指标查询结果如下:
告警规则导致应用监控误报警,有以下几个问题:
1、什么情况下会出现这种情况,监控平台检查无异常
2、如何解决类似误告警的问题
问题大致已经定位,是由于CPU使用率过高,响应数据有延迟,导致时序数据库出现了相同时间戳的数据,数据出现乱序现象,而PromQL的rate/irate有bug,在处理相同时间戳的问题时,会出现异常数据。