关于监控的一些故障,有些已经尝试解决,但是特别想知道其中真正的原因。
场景一:批量加入10台机器,其中一台机器有时间同步问题,服务端只能采集到故障的那一台信息,其余的机器信息采集不到。我觉得应该是九台正常机器信息可采集,异常的节点数据采集不到。
解决方法,把故障节点和其他正常节点机器的时间校准一致可解决。
问题一:这种场景n9e 是不是没法判断哪一台机器是正常,哪台是异常?是不是这样的异常数据会影响所有其他时间正常的categraf提交数据?
场景二:现有存量的监控中有1000台机器,新加一台监控机器时间同步有问题。整个web端都出现了down,看影响范围是整个存量机器都受影响了,所有机器的数据都不上报。
问题二:一旦有一台机器或者时序数据库某个时间点遇到问题,对整体系统都会有影响,只能把整个数据目录删除&给prometheus换个数据目录解决吗?这是prometheus数据库本身的原因还是n9e的特性决定的?
因为目前我监控的机器还有另外一套监控系统(prometheus自身的exporter监控体系,使用到的是thanos),某台机器有问题的时候,整个系统不会影响,最多是问题节点采集的数据异常,所以想知道是不是只有n9e会这样。
这种情况挺常见应该,就算不是新加入的机器有问题,存量集群中机器数量多时,很有可能就会出现某台机器ntp有问题,这样如何保证n9e的高可用?
解决方法:
因为整体的数据不上报了,所以无法确定是哪个客户端出现的问题,只能批量关闭客户端,然后清理数据排查,挺耗时的。排查的过程中,prometheus数据库写入十分钟就无法再写入数据了。还有种方式就是全量关闭客户端,再逐台开放。