夜莺5.0 gpu指标丢失

Viewed 51

我们有一台gpu服务器,nvidia_smi 命令执行正常,同时在夜莺prometheus中也有该机器的nvidia_smi_gpu_info 指标数据,但却缺少了nvidia_smi_utilization_gpu_ratio指标,同时在该GPU服务器上执行 ./categraf --test --inputs nvidia_smi_utilization_gpu_ratio 也没有数据输出,说明该指标在本机上并没有被采集。其他机器都是正常的,这是为什么?image.png
image.png

3 Answers

和一台有利用率的机器做了下对比,可能是这台有问题的服务器从来没有过有效利用率数据导致metric丢失。

机器上能执行nvidia-smi命令吗

可以正常执行

修正agent测试命令:
./categraf --test nvidia_smi |egrep "nvidia_smi_gpu_info|nvidia_smi_utilization_gpu_ratio"
依然只有 nvidia_smi_gpu_info 指标输出