0

的自动重启有时支持GKE集群中的节点发生故障,与NotReady状态:可以停留在未就绪天GKE,卡住节点

$ kubectl get nodes 
NAME      STATUS  AGE  VERSION 
gke-my-pool-f8045547-60gw Ready  10d  v1.6.2 
gke-my-pool-f8045547-7c7e NotReady 10d  v1.6.2 

节点,直到我手动重新启动。

我有一个健康检查我的豆荚,所以他们都去其他节点,但这个陈旧的节点仍然有附加的GCE磁盘的问题。因此,有些Pod无法在任何其他节点上启动,除非我手动分离磁盘(或重新启动旧节点)。

这基本上杀死了Kubernetes的整个想法,因为它每天发生几次,所以我必须整天照看它。有什么办法可以配置Kubernetes或GCE来自动执行此操作吗?最简单的方法是自动重新启动NotReady节点,但似乎没有办法为节点本身配置健康检查。另一种选择是自动卸载磁盘,当它从另一台机器请求时,但我没有看到任何配置方法。

+0

从我在这里看到的内容https://kubernetes.io/docs/tasks/debug-application-cluster/monitor-node-health/:'Currently Kubernetes won'对节点问题检测器产生的节点状况和事件采取任何行动。在未来,可以引入一种补救系统来处理节点问题。因此,这是将来可能发生的事情(但不会说明什么时候) –

+0

您是否知道我可以使用标准的GCE工具来监控节点健康状况?它可以重新启动节点,但我无法将其连接到Kubernetes运行状况端点 –

回答