4 Answers
  1. 看看监控指标的promql对不对
  2. 看看categraf是否采集了日志

1.promql如下:
sum(rate(container_fs_reads_bytes_total{pod="$pod_name", image!~".pause."}[1m])) by(container)

2.categraf没有采集日志,但是修改了挂载的目录,配置如下

  1. 3.10内核上有些IO指标是不准确的,需要确认下这个指标container_fs_reads_bytes_total准确与否
  2. 有没有采集日志需要看一下 logs.toml
  3. 挂载目录这个修改,只看这部分,可以随意改。

1.对比别的pod,准确度还可以 ,有用别的工具抓磁盘使用情况,caregraf的确很高,图片放到下面。
2.logs.toml用的默认配置,没有修改。里面配置的目录pod里没有。

1.promql如下:
sum(rate(container_fs_reads_bytes_total{pod="$pod_name", image!~".pause."}[1m])) by(container)

2.categraf没有采集日志,但是修改了挂载的目录,配置如下

  • hostPath:
    path: /sys
    type: ""
    name: hostrofs-sys
    - hostPath:
    path: /proc
    type: ""
    name: hostrofs-proc
    - hostPath:
    path: /var
    type: ""
    name: hostrofs-var
    - hostPath:
    path: /run
    type: ""
    name: hostrofs-run
    - hostPath:
    path: /dev
    type: ""
    name: hostrofs-dev
    - hostPath:
    path: /mnt/test
    type: ""
    name: hostrofs-test
    - hostPath:
    path: /var/run/utmp
    type: ""

别的工具抓到的磁盘读写情况
image.png

你有通过categraf的Trace插件来采集链路数据吗?我这边现在遇到和你差不多的问题,原因就是Trace插件采集链接数据,当访问量比较大的时候,磁盘IO的读流量很大。

没有采集trace