随着数字化时代的迅猛发展,企业对于高效、灵活和可扩展的IT基础设施的需求日益增加。超融合技术作为应对这一需求的创新解决方案,已受到越来越多企业的关注和青睐,成为企业实现数字化转型的得力助手。然而在使用过程中,一旦出现问题,则需要快速修复!否则将严重影响企业的运营效率,给企业带来极大的不便。
湖南某高校客户,占地面积上千亩,园区内有学生和老师千余人,属于网度通信的维保合作单位。11月7日中午,客户反馈校园IT部门接到用户报告:校园一卡通和办公应用设备均无法使用!严重影响了校园网络的正常运行!原因可能是超融合集群掉线导致。
时间紧任务重!客户园区超融合集成修复客户容缓!我们立即派出工程师前往客户处排除故障,修复设备。
排障过程中发现节点1存储控制器从控制台无法登录,并自行重启。重启过程显示报错:无磁盘空间。对比正常节点,报错磁盘为/var,即为/dev/sdb housekeeper 磁盘。未确定其为硬件还是软件故障。
节点3为离线状态。据系统管理员反馈:此节点频繁出现自行上线/离线现象。通过专业系统分析定位为卡板问题。
节点4和节点8数据服务均已停止。
网度通信工程师登上UCS管理器,显示此超融合集成物理机所有路径也均已断掉。
总结故障源头,分析解决办法
通过以上节点排查,可发现此次故障属于超融合掉线过多导致。理论上讲,多于5节点的超融合,如果只有2台以内节点掉线,可保证其处于正常运行状态。当有第 3 台节点掉线时,系统为防止启动服务导致少数节点错误,进而导致数据一致性错误,集群就会主动关闭服务。
快速解决问题,网络恢复正常
因超融合故障给客户园区造成重大影响,网度工程师为迅速将网络恢复正常,故手动启动了节点 4 和节点 8 的数据服务。集群数据服务恢复正常后,重启虚拟机,园区网络可正常使用。
深度思考,修复故障导火索
虽然临时解决了校园网络故障问题,但如果在后期使用过程中节点1和节点3再次离线,其他任意节点丢失1节,集群还会会再次关闭。
为了解决这个问题,网度工程师再度排查故障原因,最终发现根本原因为2点:
(1)节点1的存储控制器空间不足导致节点丢失,需要重新部署存储控制器。
(2)节点3出现自行上线/离线现象,确定为板卡问题,需要更换板卡。
最终,在网度工程师有条不紊的作业下,客户公司超融合问题成功修复!
通过本次事件表明,超融合出现故障之后需要首先自查原因,如果不能及时解决,立即向第三方维保公司求助,利用他们的专业经验进行修复,以免影响企业网络的正常运行。