- 服务器有维护功能吗? 就是对某个 region的服务器设定一个时间段,那个时间段就不会收到告警。
- 假如已经设了一条规则对全量服务器监控内存使用率超过80%就告警,如果只单独对某一台服务器内存使用率超过90%才告警,这个能否实现吗?
1:屏蔽告警的规则是必须要设置时间的,第一个我建议新增一个告警规则,跟原有的区分开,这个规则里匹配region=xxx,然后再告警时间那里选择时间段。
2:可以实现的,可以设置mem_available{ident=xxxx} < 20。
你需要先理解目前版本(v5/v6)的主机资源是如何分组定位数据的?答案是使用tag。这也是类promethues 时序数据的一大优势,和灵活性所在。再来回答你的问题:
1、维护无非就是屏蔽,服务器并没有固定分组或者说有很多组,因为不同tag可认为不同组,针对你列举的region 组,那只需要屏蔽 region tag的所有报警信息即可,其他类推。
2、针对全量服务器内存80%报警,那就是针对内存不做分组来配置报警,针对某一台内存90%,那就是针对这台服务器的报警,可针对ident做分组,也就是单台了。