[N9E] 咨询下告警相关功能

Viewed 136

部门准备自建告警平台,由于采集和存储都已经有一套了,所以重点是想实现告警管理,目前正在技术选型中,其中夜莺是待定方案之一。目前我这这边有2个疑问,希望能帮忙解答下,感谢!

第一个是告警通知模板问题,我看夜莺的使用手册以及自己安装体验后,发现夜莺只能基于电话/邮箱/飞书等这种维度去定义通知模板,但从我目前公司的需求来看,这还不够,目前我们是支持了基于告警规则的维度去定义通知模板的,类似于prometheus的annotations吧。 所以,想问下夜莺是有支持的计划吗,还是说暂时还是维持这样就好了?

第二个是想知道夜莺目前实现了告警抑制、合并、降噪这些功能吗,目前只看到支持告警订阅和屏蔽,请问下这一块夜莺是已经实现了还是说有其他考虑?

期待回复~

2 Answers

1,你可以把自定义模板内容写到告警规则的备注里,然后短信、邮箱、钉钉、飞书那些模板,可以直接展示备注,这样就相当于定义了规则颗粒度的模板
2,更丰富的告警聚合、收敛、排班、认领、升级、协同,是放在 FlashDuty 实现的,可以通过这里了解:https://flashcat.cloud/product/flashduty/

补充下,我这边有个叫告警翻译功能,比如 bgp.peer.status{device=deviceA,role=roleB,peer=peer1} 可以翻译成"设备device_A 与对端设备peer1 bgp邻居状态发生变化", 感觉虽然这个夜莺的备注有类似效果,但应该转义不了tag层吧? 这一点考虑主要是担心切换后一线运维不是很能适应过来。

对于部分告警信息,标签携带的信息也很重要,一线值班可能不太看得懂英文的标签,所以最好能在告警出来的时候给他们翻译一下,这一点我们研发就被运维吐槽过。

感谢你的问题。

1、电话、邮箱、飞书,这些都是告警通知的渠道,可以通过配置方便的进行扩充,比如你们内部的IM、slack等等,当然通知的内容,可以通过模版文件来渲染具体的展示方式、要展示的字段。

对于你提到的Prometheus的annotations,他和上面讲的通知渠道,不是一个概念,你可以在通知模版中通过配置,决定展示某些label。

2、夜莺的开源版本,没有告警抑制、降噪这些能力,你可以选择夜莺专业版( https://flashcat.cloud/product/flashcat-pro/ ) 或者快猫星云提供的SaaS服务:Flashduty( https://flashcat.cloud/product/flashduty/

可能我对annotation理解不准确,谢谢指出~