2016-04-04 35 views
2

我每周仅在一个双节点集群上的一个节点上收到此错误。 这是我对AMC得到了错误:集群完整性受到干扰

主要错误:

Cluster integrity has been disturbed

错误的每一组:

Mismatch in replication factor for namespace test as shown by nodes

的信息,在2个节点具有相同aerospike.conf文件复制因子为2. 另一件引起我注意的事情是,整个群集不可用,而只有一个节点关闭(不可见),所以我在质问自己Aerospike的HA。

要解决此问题,我只需重新启动不可见的节点。

On the aerospike documentation它说:

This can be true if a set of nodes has split from the main cluster. (This is sometimes referred to as a split brain.) Generally, it is easiest to restart the “lost” node(s) to get it/them to rejoin the cluster.

但是作为每周出现这种问题,我很乐意一旦解决了这个和所有:)

+1

你可以grep日志'群集完整性'(不区分大小写),如果有任何错误,请分享。版本也将有所帮助 –

+1

我感觉到力量的扰动。 – jotik

+0

@BenBates 日志: 'CLUSTER INTEGRITY FAULT。 [第2阶段1]固定,发出此命令在所有节点:逼债:节点= bb9648009565000,bb9017602565000' 版本:社区版3.7.0.1 告诉我,如果你需要更多的 –

回答

3

一个建议是将paxos-recovery-policy设置为auto-reset-master,并且集群应该自己重新组合,假设问题的原因是临时网络流量,这意味着集群可能会失去完整性。

+1

感谢您的建议,我更新了这个配置,我会保持更新。 –

+0

10天后,没有发现群集完整性问题。 谢谢! –

+0

感谢您的更新,好东西! –

3

我塞式的工作,做了一些研究之后,“不匹配在节点所显示的名称空间测试的复制因子中“可以链接到不可见的节点。在具有复制因子2的2节点群集中,当一个节点不可用时,复制因子将降至1以保持数据可用性。当节点重新加入群集时,复制因素很短时间不匹配,AMC将重试,并且您不应该看到重复此错误。

我们需要到达节点底部的问题以解答第二个问题,请参阅我的评论。