categraf 挂了,夜莺不报警?

Viewed 118

当 categraf 挂了,或者主机挂了,categraf 就不会往 vm 里面写数据了
那此时夜莺查数据也就查不到了,并不是0和 1 的问题,而是就没有这个数据
那是不是说这个时候并不会触发夜莺的告警啊?(我实际遇到的没报警,分析下来大概是这个情况)
大佬帮分析下呢

3 Answers

其实v5的target_up这个指标还是蛮好的, 不管有没采集到信息,总是有1或0的值,类似prometheus exporter 的up。写promql时有时还可以作为基准指标和其它指标做逻辑匹配。还可以用来过滤查询一批机器的连接历史,尤其是批量查询断联情况的时候。

image.png我觉得这个图可以解释,如果往vm写数据的不止是categraf,告警符合条件时可以触发的 夜莺V6.X架构介绍

不应该 categraf 直接写数据到 vm 更好嘛?节省资源
这个架构是又经过了一层 n9e 的转发到 vm,这无疑增大了 n9e 的开销,这么设计的目的是?主要解决什么问题的

我觉得这样设计目的之一是提供更多自定义标签方便查询和监控报警