注册
DM集群自动切换问题排查
技术分享/ 文章详情 /

DM集群自动切换问题排查

sam 2022/12/13 1451 0 0

本次故障发生在真实的生产环境中。基础架构的信息如下:1.主机为国产的x86服务器,经过HW的虚拟化平台虚拟出了3台数据库服务器。2.操作系统为国产麒麟v10操作系统。3.存储设备为HW的全闪存。
故障现象如下:在每周六的23点,数据库的监视器就无法访问3个数据库服务器,在最近几周频繁发生主备机进行了切换。
排查思路,是否有定时任务在执行,查询操作系统的错误日志,查看HW虚拟化平台的日志,排查网络是否有掉包的情况。
历史了半个月的排查工作,首先排除了网络的故障(使用流量回溯系统),在操心系统日志中,发现每周的23点会告警,显示日期被重置。问题就变成了是哪个地方造成了时间被重置,从而导致了监视器无法正常和各个数据库主机进行通信的问题。在和备份系统管理员的沟通中,发现每周六有进行虚拟机快照的备份。每当进行快照备份的时候,数据库的日志中就会出现告警信息,同时监视器无法获得数据库服务器的状态。现在问题就比较明显了为啥虚拟机快照会导致这个情况。
通过协调HW工程师进行故障的重现,准备把问题定义为HW的虚拟化平台存在BUG,在打快照的时候,ping主机无法获得响应。最终通过打补丁进行了解决。一开始任务是达梦数据库集群的问题,目前集群运行平稳,高效。

评论
后发表回复

作者

文章

阅读量

获赞

扫一扫
联系客服