nvidia-smi 显卡监控 count 指标有多个怎么删?

Viewed 15

我有一些服务器,服务器上有 8 张卡。使用 categraf 上报监控数据,启动了 nvidia-smi 插件。图片.png
如图所示,默认指标标签中 有 uuid ,所以一台服务器 这个 count 指标会有 8 个。当我配置告警规则 nvidia_smi_count <8 时且 服务器丢失一张卡时,告警会触发 8 次。有什么配置可以解决这个问题? categraf 上报数据时 relabel 删除 uuid 标签(只删除这个指标的,其他显卡指标不能删除) 或者 告警规则配置可以 同一个 ident 只报一次?

0 Answers