我们有一台gpu服务器,nvidia_smi 命令执行正常,同时在夜莺prometheus中也有该机器的nvidia_smi_gpu_info 指标数据,但却缺少了nvidia_smi_utilization_gpu_ratio指标,同时在该GPU服务器上执行 ./categraf --test --inputs nvidia_smi_utilization_gpu_ratio 也没有数据输出,说明该指标在本机上并没有被采集。其他机器都是正常的,这是为什么?
我们有一台gpu服务器,nvidia_smi 命令执行正常,同时在夜莺prometheus中也有该机器的nvidia_smi_gpu_info 指标数据,但却缺少了nvidia_smi_utilization_gpu_ratio指标,同时在该GPU服务器上执行 ./categraf --test --inputs nvidia_smi_utilization_gpu_ratio 也没有数据输出,说明该指标在本机上并没有被采集。其他机器都是正常的,这是为什么?
修正agent测试命令:
./categraf --test nvidia_smi |egrep "nvidia_smi_gpu_info|nvidia_smi_utilization_gpu_ratio"
依然只有 nvidia_smi_gpu_info 指标输出