💡 自行努力方向
- 确保时间一致:监控系统对时间敏感,包括 agent 所在机器的时间、server 所在机器的时间、时序库所在机器的时间、浏览器所在本地笔记本的时间
- 从日志找线索:作为 IT 从业人员出问题,一定首先是看日志,如果是 systemd 托管的进程,使用 journalctl 看日志,比如要看 systemd 托管的 n9e 的日志,可以使用这个命令:
journalctl -u n9e -f
。如果是浏览器报错,就要看 HTTP 请求和响应,Chrome浏览器开发者工具,也是 IT 从业人员必备,Chrome开发者工具使用指南点击这里,把 http request 和 response 的内容贴出来,通常更容易得到答案 - 升级到最新版本:从下载中心下载即可,每个版本都有升级改动说明
- 更换时序库:时序库从 Prometheus 改成 VictoriaMetrics 单机版,性能更好,接口兼容 Prometheus,还规避了 Prometheus 的一些问题(比如数据乱序)
- 通览所有文档:夜莺的文档不多,快速浏览一下每一篇,注意是每一篇,尤其是这篇 这是参与开源社区的基本要求哈
💡 提问模板
如果经过上面的自行努力之后,仍然无法解决问题。可以在本论坛提问,通常会有社区小伙伴一起讨论,我们的技术人员通常会在一周内响应,如果需要更快的响应速度,建议了解一下夜莺专业版。提问时建议提供以下信息:
- 夜莺和categraf的版本,夜莺的版本在页面上可以查看,在系统配置菜单下面,categraf的版本就是
./categraf -version
即可查看 - 操作系统版本信息
- 时序库版本信息
- 现象截图,截全屏,尽量详细
- 日志,比如进程的日志,chrome开发者工具看到的报错请求的 request 和 response
- 相关配置
- 复现步骤,这个极为关键
如果你懒得提供信息,社区也懒得帮你;如果你很努力解决、提供很详细的信息,社区也会尽可能提供思路帮助你,夜莺研发人员通常会在每周三集中处理论坛问题。商业版用户遇到问题可以直接联系我,我安排同事远程排查,可以无需在论坛提问。