Categraf采集磁盘diskio_io_time指标异常

Asked May 13, 2023 Modified May 13, 2023

Viewed 329

catagraf-采集异常

请问这个Linux Host by Categraf 中的 io util top10

topk(10, (rate(diskio_io_time{busigroup="xxxx"}[1m])/10))
指标是根据什么来的
通过查看阿里云监控 vda磁盘没有异常但是监控上指标数值有点太大了。。。

vda是阿里云服务器默认/ 目录

edited May 13, 2023

半夜开门官3

asked May 13, 2023

2 Answers

即时查询中查询diskio_io_time{你的问题机器label}[5m] ，这种问题一般是两台机器用了相同的ident导致的

edited Jan 1, 1970

kongfei361

answered May 15, 2023

大佬真乃神人也，确实是相同ident导致。
同事用此 ident服务器克隆了两台主机 ...

kongfei大佬真乃神人也
kongfei大佬真乃神人也
kongfei大佬真乃神人也

半夜开门官• May 15, 2023

我从官网找到这个，Telegraf调研笔记2：CPU、MEM、DISK、IO相关指标采集，数值太大是不是因为查询选择器不合适，按照文章解释rate(diskio_io_time[1m])/10 是IO使用率，每秒有多少零点几秒是用于io，即io的时间占比，比率一般用%单位，所以我觉得应该是按照机器筛选Linux磁盘监控-diskio_io_time

edited May 13, 2023

大禾896

answered May 13, 2023

大佬我观不是单位问题
因为其它服务器都是好用的，
其他设备在备份大数据库时候会触发该指标告警
告警规则：rate(diskio_io_time{busigroup="xxxx"}[1m])/10 > 99

就这台异常这些服务器都是克隆的

换了 categraf 版本也不行。

有可能重启解决问题。因为是生产服不能随时重启等协调个时间再看看

半夜开门官• May 15, 2023