telegraf监控网络设备对象列表状态总是会反复down

Viewed 104


down的设备都是写在同一个inputs.snmp中的,只有这个模块里的设备会这样,其余两个没啥问题,代码是:
[[inputs.snmp]]
agents = [
"10.75.255.255",
"10.75.255.251",
"10.75.255.250",
"10.75.255.249",
"10.75.255.248",
]
timeout = "5s"
version = 3
...
agent_host_tag = "ident"
retries = 1

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysUpTime.0"
name = "uptime"

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysName.0"
name = "sysName"
is_tag = true

[[inputs.snmp.table]]
name = "interface"
oid = "IF-MIB::ifTable"

[[inputs.snmp.table]]
name = "interface"
oid = "IF-MIB::ifDescr"

[[inputs.snmp]]
agents = ["10.75.252.22"]
timeout = "5s"
version = 2
community = "public"
agent_host_tag = "ident"
retries = 1

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysUpTime.0"
name = "uptime"

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysName.0"
name = "sysName"
is_tag = true

[[inputs.snmp.field]]
name = "ifDescr"
oid = "IF-MIB::ifDescr"
is_tag = true

[[inputs.snmp.table]]
name = "interface"
oid = "IF-MIB::ifTable"
不知道问题出在哪里。

2 Answers

提供两个思路:
1,检查 categraf 的日志
2,拿某个指标,比如 snmp_uptime 这个,去即时查询里查询,snmp_uptime[10m] 在Table视图查,看看原始数据的时间间隔,和采集频率是否对的上

我用的telegraf,然后table那里没数据graph里有这些显示down设备的数据

那说明数据滞后了

之前遇到过和你类似的问题,原因是有一台交换机确实有问题,会影响整个采集 agents 列表,我暂时把经常出问题的设备单拿一个 agents 列表。

供你参考。

我这个关键就是很确定测试的设备都是在运行的正常设备,不知道咋回事

那就有可能是秦老板说的那种情况,采集频率和时间间隔时间差导致的。