
云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机
发布日期:2021-05-09 01:35:54
浏览次数:22
分类:精选文章
本文共 673 字,大约阅读时间需要 2 分钟。
今天 11:29 - 11:39 左右,docker swarm 集群 3 个 manager 节点同时出现异常,造成整个集群宕机,由此给您带来很大的麻烦,请您谅解。
受此次故障影响的站点有:,,,,,,,,,openapi
最近我们刚刚确认我们所有遇到的 docker swarm 不稳定问题都与部分节点的异常状况有关,即使是一直让我们非常头疼的 docker-flow-proxy 路由问题,也是因为路由容器所在的节点出现异常状况,只要通过阿里云控制台重启这台节点服务器,就能恢复正常。
我们的 docker swarm 集群节点部署是这样的:5台阿里云2核4G服务器作为 manager 节点,1台阿里云4核8G服务器作为 worker 节点。基于这样的部署,我们想即使部分节点出现异常状况也不会带来影响,发现后重启节点服务器就行了。但没想到今天3个节点同时出现异常状况。。。最终通过阿里云控制台重启这些异常节点后恢复正常。
对于节点的这种异常状况,我们目前毫无头绪,不知是我们的应用问题、还是docker的问题、还是阿里云服务器的问题,目前唯一的线索是:节点服务器持续运行时间越长,出现异常状况的概率越高,出现异常状况后通过阿里云控制台重启服务器立马恢复正常。
对于目前无法确定是船的问题、还是集装箱的问题、还是货物的问题的困难处境,我们的临时解决方法是改进对节点服务器的监控,及时发现出现异常状况的节点进行重启操作。
更新:根据我们的进一步分析,更保险的临时解决方法是当发现一个节点出现异常状况时要重启所有 manager 节点服务器。
发表评论
最新留言
路过按个爪印,很不错,赞一个!
[***.219.124.196]2025年04月27日 07时28分32秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Mapbox GL示例教程【目录】-- 已有80篇
2025-04-11
Mapbox TOKML:将GeoJSON转换为KML的开源工具
2025-04-11
MapboxGL 入门系列教程(一):应该如何学习 MapboxGL
2025-04-11
mapper.xml中mapper找不到问题
2025-04-11
Mapper映射文件(CRUD和主键id生成)
2025-04-11
Mapper映射文件传参(数组/集合)与#{}和${} 区别
2025-04-11
mapping文件目录生成修改
2025-04-11
MapReduce Java API-使用Partitioner实现输出到多个文件
2025-04-11
MapReduce Java API-多输入路径方式
2025-04-11
MapReduce Java API实例-排序
2025-04-11
MapReduce Java API实例-统计出现过的单词
2025-04-11
MapReduce Java API实例-统计单词出现频率
2025-04-11
MapReduce Java API实例-统计平均成绩
2025-04-11
MapReduce Kmeans聚类算法
2025-04-11
MapReduce与HDFS企业级优化
2025-04-11
MapReduce分布编程模型之函数式编程范式
2025-04-11
MapReduce实现二度好友关系
2025-04-11
MapReduce的思想
2025-04-11
MapReduce的模式、算法和用例
2025-04-11