当 categraf 挂了,或者主机挂了,categraf 就不会往 vm 里面写数据了
那此时夜莺查数据也就查不到了,并不是0和 1 的问题,而是就没有这个数据
那是不是说这个时候并不会触发夜莺的告警啊?(我实际遇到的没报警,分析下来大概是这个情况)
大佬帮分析下呢
当 categraf 挂了,或者主机挂了,categraf 就不会往 vm 里面写数据了
那此时夜莺查数据也就查不到了,并不是0和 1 的问题,而是就没有这个数据
那是不是说这个时候并不会触发夜莺的告警啊?(我实际遇到的没报警,分析下来大概是这个情况)
大佬帮分析下呢
当 categraf 挂了,或者主机挂了
针对这个情况,可以看下 夜莺监控(Nightingale)机器失联告警设计
其实v5的target_up这个指标还是蛮好的, 不管有没采集到信息,总是有1或0的值,类似prometheus exporter 的up。写promql时有时还可以作为基准指标和其它指标做逻辑匹配。还可以用来过滤查询一批机器的连接历史,尤其是批量查询断联情况的时候。