telegraf监控网络设备对象列表状态总是会反复down

Question

down的设备都是写在同一个inputs.snmp中的，只有这个模块里的设备会这样，其余两个没啥问题，代码是：
[[inputs.snmp]]
agents = [
"10.75.255.255",
"10.75.255.251",
"10.75.255.250",
"10.75.255.249",
"10.75.255.248",
]
timeout = "5s"
version = 3
...
agent_host_tag = "ident"
retries = 1

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysUpTime.0"
name = "uptime"

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysName.0"
name = "sysName"
is_tag = true

[[inputs.snmp.table]]
name = "interface"
oid = "IF-MIB::ifTable"

[[inputs.snmp.table]]
name = "interface"
oid = "IF-MIB::ifDescr"

[[inputs.snmp]]
agents = ["10.75.252.22"]
timeout = "5s"
version = 2
community = "public"
agent_host_tag = "ident"
retries = 1

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysUpTime.0"
name = "uptime"

[[inputs.snmp.field]]
oid = "RFC1213-MIB::sysName.0"
name = "sysName"
is_tag = true

[[inputs.snmp.field]]
name = "ifDescr"
oid = "IF-MIB::ifDescr"
is_tag = true

[[inputs.snmp.table]]
name = "interface"
oid = "IF-MIB::ifTable"
不知道问题出在哪里。

ulricqin · Accepted Answer

提供两个思路：
1，检查 categraf 的日志
2，拿某个指标，比如 snmp_uptime 这个，去即时查询里查询，snmp_uptime[10m] 在Table视图查，看看原始数据的时间间隔，和采集频率是否对的上

程序员伍六一 · Answer

之前遇到过和你类似的问题，原因是有一台交换机确实有问题，会影响整个采集 agents 列表，我暂时把经常出问题的设备单拿一个 agents 列表。

供你参考。

telegraf监控网络设备对象列表状态总是会反复down

2 Answers