边缘机房的host类型报警信息中缺少label

Viewed 25

版本: v7.0.0-beta.10-6f007deeaaac95b94c103a3d1ec81bd7947f9eae
部署方式: 中央机房+边缘机房部署,本次出现问题的是一台边缘机房的机器

问题描述:边缘机房的host类型告警没有携带给定的label
我们在基础设施中,对每个机器都增加了app、owner等label,正常来说当触发告警后这些标签会自动加入到报警中,但是目前发现部分实例Host类型似乎补充标签,示例如下
image.png
如上图所示, 同一个ident, 磁盘io耗时这条告警带有正常的dev、app、sre等标签, 而实例心跳丢失则没有这些标签。

补充: 发现出现这类问题的都是边缘机房的机器,同一版本的中央机房的心跳丢失告警没有这类问题, 怀疑是不是边缘机房实例告警的时候, 没有正确的添加来自服务端下发的label

1 Answers

补充:
目前发现边缘机房, 有部分机器上报的指标也缺少labels,比如 system_load_norm_5 这种基础监控指标,查看时序数据库中, 出现这种除了ident没有任何其他label的指标的时间不固定, 但都是一些io很高的时候出现的
如下图所示, 两个指标的ident实际上是一样的
image.png
其中异常的指标(即缺失label的指标)只持续了一段时间,如下所示
image.png

猜测也许是因为机器负载高, 导致数据上报重复了?
进而引发了告警时,也出现了丢失label的情况