机器失联告警的具体逻辑是什么

Viewed 31

疑问:
机器失联的判断条件是categraf进程down掉还是机器ping不通或者其他条件?
image.png

自我排查:
我看到有一个介绍,这块说得太模糊了,所以要请教下
https://flashcat.cloud/docs/content/flashcat-monitor/nightingale-v6/usage/alert/alert-rule/
image.png

现状问题:
我现在有一个台机器IP能通,能连接上服务器,categraf进程因内存溢出自我kill了,此时触发了机器失联的告警。这块逻辑不清楚想问问具体逻辑是啥。

1 Answers

和 target 表的 update_at 字段密切相关,categraf的心跳,以及数据上报都会更新( 每次心跳/数据上报都会解析其中值ident到保存在内存中;单独协程每秒都会检查一下并更新内存中ident列表(map结构)的时间 )

意思是categraf进程挂掉后就代表机器失联了吗?

嗯,也可以这样认为