夜莺如何监控服务器的IPMI信息?

Viewed 228

百台服务器以上的环境,如何通过夜莺进行IPMI信息监控?(先不考虑使用ipmitool自定义脚本的方式)
目的是为了获取RAID成员故障信息,内存故障信息,风扇转速,主板温度等硬件层面的信息。

哥们。你们最后是如何实现监控的?

用categraf实现的,随便找个机器或容器运行categraf。重点在配置input.ipmi
我是用远程访问的方式收集数据,这样就不用挨个机器部署categraf了,只部署一个就行。
参考:
[[instances]]
......
servers = [
#"ADMIN:P@aas0rd@lan(192.168.100.101)",
#"ADMIN:P@ssw0rd@lan(192.168.100.102)",
#lanplus 推荐
"ADMIN:Admin@lanplus(172.20.250.2)",
"ADMIN:Admin@lanplus(172.20.250.3)",
"ADMIN:Admin@lanplus(172.20.250.4)",
"ADMIN:Admin@lanplus(172.20.250.5)"
]

能分享一下完整的input.ipmi文件吗?我用最新categraf版本的ipmi配置文件测试一直不出数据,ipmitool是可以返回的。

2 Answers

夜莺啥都可以监控,又啥都监控不了。夜莺是一个服务端组件,类似 Grafana,可以接入不同的数据源,比如 Prometheus、VictoriaMetrics、Thanos 等等,只要数据进到这些库里了,夜莺就可以对数据源的数据进行分析、告警、可视化,以及后续的事件处理、告警自愈。

当然,夜莺也有端口接收监控数据,可以跟开源社区常见的各种监控采集器打通,比如 Telegraf、Categraf、Grafana-agent、Datadog-agent、Prometheus 生态的各类 Exporter 等等。这些 agent 采集了数据推给夜莺,夜莺适配了这些 agent 的数据传输协议,所以可以接收这些 agent 上报的监控数据,转存到后端对接的数据源,之后就可以对这些数据做告警分析、可视化。

所以夜莺本身不做监控数据采集,啥都不能监控,但是夜莺可以对接数据源,又啥都可以监控。

回到问题本身。ipmi 的监控通常有两个方式,一个是指标方式一个是日志方式,指标的话可以使用 ipmi_exporter 或者 telegraf 的对应采集插件,日志的话可以参考一下新东方这个实践:https://flashcat.cloud/blog/host-ilo-monitoring/

感谢秦老师的耐心解答。

这个只是监控,告警该如何实现呢?