注册
1主1备架构下备库宕机后主库挂起故障分析
技术分享/ 文章详情 /

1主1备架构下备库宕机后主库挂起故障分析

干饭王 2023/12/26 1330 0 0

故障描述

客户反馈备库宕机后,业务不可用。

问题调查

1、数据库架构:1主1备,DM V8.1.2.70_pack4
2、故障的时候状态
从监视器上看
主库的守护进程出现:WSTATUS:MON CONFIRM
主库的数据库进程出现:ISTATUS:SUSPEND

#================================================================================# GROUP OGUID MON_CONFIRM MODE MPP_FLAG GRP_DW 453331 FALSE AUTO FALSE <<DATABASE GLOBAL INFO:>> DW_IP MAL_DW_PORT WTIME WTYPE WCTLSTAT WSTATUS INAME INST_OK N_EP N_OK ISTATUS IMODE DSC_STATUS RTYPE RSTAT 172.*.*.1 7536 2023-12-18 15:15:12 GLOBAL VALID MON CONFIRM TEST0 OK 1 1 SUSPEND PRIMARY DSC_OPEN REALTIME VALID EP INFO: INST_IP INST_PORT INST_OK INAME ISTATUS IMODE DSC_SEQNO DSC_CTL_NODE RTYPE RSTAT FSEQ FLSN CSEQ CLSN DW_STAT_FLAG 172.*.*.1 5237 OK TEST0 SUSPEND PRIMARY 0 0 REALTIME VALID 745287 4736125 745287 4736525 NONE ERROR DATABASE: <<DATABASE GLOBAL INFO:>> DW_IP MAL_DW_PORT WTIME WTYPE WCTLSTAT WSTATUS INAME INST_OK N_EP N_OK ISTATUS IMODE DSC_STATUS RTYPE RSTAT 172.*.*.2 7536 2023-12-18 15:09:43 GLOBAL VALID ERROR TEST1 OK 1 1 OPEN STANDBY DSC_OPEN REALTIME VALID EP INFO: INST_IP INST_PORT INST_OK INAME ISTATUS IMODE DSC_SEQNO DSC_CTL_NODE RTYPE RSTAT FSEQ FLSN CSEQ CLSN DW_STAT_FLAG 172.*.*.2 5237 OK TEST1 OPEN STANDBY 0 0 REALTIME VALID 4246 4735419 4246 4735419 NONE DATABASE(TEST1) APPLY INFO FROM (TEST0), REDOS_PARALLEL_NUM (1): DSC_SEQNO[0], (RSEQ, SSEQ, KSEQ)[745166, 745167, 745168], (RLSN, SLSN, KLSN)[4735419, 4735423, 4735426], N_TSK[1], TSK_MEM_USE[1536] REDO_LSN_ARR: (4735419) #================================================================================#

3、主备库关键配置情况
序号 主库/备库 配置文件 项目 值
1 主库 dmwatcher.ini DW_MODE AUTO(故障自切)
2 备库 dmwatcher.ini DW_MODE AUTO(故障自切)
3 无确认监视器 dmmonitor_manual.ini MON_DW_CONFIRM 0(手动切换)

以上检查配置检查完成后,初步判断是没有啥问题的。

4、复现故障
使用相同数据库版本和相同主备关键配置尝试复现此现象:把备库守护进程和数据库进程同时KILL后,能重现主库挂起现象。

原因分析

主备集群未配置确认监视器,且集群守护进程故障切换模式为自动,在备库发生故障后,因缺少确认监视器无法正常将故障备库踢出集群,故障切换模式为自动导致主备集群 WSTATUS 处于“MON CONFIRM”状态,主库一直处于挂起状态,等待确认监视器响应,无法继续对外提供服务。

解决办法

将守护进程故障切换模式从自动改为手动并重启生效后,业务恢复正常。

总结

本此现象在新版本中已优化,所以面对问题的时候,一定要结合当前数据库版本和当前相关配置情况等综合来判断。

评论
后发表回复

作者

文章

阅读量

获赞

扫一扫
联系客服