关于磁盘SMART信息采集的建议和疑问

Viewed 36

通过categraf v0.3.43 的smart插件采集磁盘信息。配置如下

path_smartctl = "/usr/sbin/smartctl"
path_nvme = "/usr/sbin/nvme"
enable_extensions = ["auto-on"]
use_sudo = true
attributes = true
timeout = "30s"
read_method = "concurrent"

采集可正常工作,磁盘smart信息可以拿到。
我的疑问是:采集上来的值全是RAW_VALUE,各厂家针对RAW_VALUE的处理方法不一,如果环境中有多个品牌的硬盘,如何判断谁是真故障,谁是谎报?

我的建议是:
增加VALUE,WORST,THRESH,TYPE这四个值的采集,用户可以通过判断VALUE与THRESH的差值,来判断磁盘是否出现故障。通过TYPE判断这款硬盘的核心故障指标是什么。
image.png

如果当前的categraf可以做到,是我用法不对,烦请指正告知一下方法,感谢!

1 Answers

我看到代码里一部分细节,感觉像是 VALUE,WORST,THRESH 这三个指标都是数值类型已经采集了 gatherDisk 可以再确认下

找到了,smart_attribute_threshold,smart_attribute_value,smart_attribute_worst这三个指标,谢谢