一、问题描述
生产系统DEM管理平台,凌晨3时左右,36.189数据库服务器发出告警信息提示:连接状态-失败,一分钟后自动恢复正常。如下图一、图二所示。在凌晨3时该服务器执行的是数据库增量备份任务。
备注:生产系统敏感信息已处理。36.187/188/189是三节点DMDSC。
图一
图二
二、解决方法
(1)问题分析
1)36.189数据库服务器报连接失败,首先检查网络是否正常。通过检查36.189服务器的nmon文件,在3时左右服务器的网络是正常的,如下图三所示。在3时到4时之间服务器网络处于稳定状态。后面我们通过ping命令验证36.189服务器与DEM服务器之间的网络,在3时左右也是正常的,没有出现网络连接断开的情况。
图三
2)检查36.189的数据库日志信息。数据库运行正常,无任何告警信息。如下图四所示。
36.187/188/189是三节点DMDSC,同时检查了36.187/188的数据库日志信息,都是无任何告警信息。
图四
3)检查36.189服务器的dmagent日志信息。日志信息中提示:网络通信异常,如下图五所示。同时检查了36.187/188的dmagent日志信息,日志中都有相同的告警信息:网络通信异常。
图五
4)分析36.189的nmon文件。通过上一步dmagent日志分析,36.187/188/189都报网络通信异常的错误信息。通过在生产系统ping命令验证36.187/188/189服务器与DEM服务器之间的网络,在3时左右也是正常的,没有出现网络连接断开的情况。所以再仔细分析三台服务器的nmon文件,从nmon文件中得到更多有效信息。分析三台服务器的系统IO情况,6月8日3:00-3:02之间,36.189服务器系统IO占用达到85%,如下图六所示,其他时间段系统IO占用不到5%。在相同时间段内,36.187服务器系统IO占用低于20%,36.188服务器系统IO占用低于30%。36.189服务器系统IO占用85%左右,读和写分别占用多少?进一步分析36.189的nmon文件。
图六
5)分析36.189的nmon文件中磁盘的读和写情况。6月8日3:00-3:02之间,36.189服务器磁盘读速度达到225MB/s,如下图七所示,磁盘写速度低于16MB/s。其他时间段磁盘读写速度低于2MB/s。在相同时间段内,36.187/188服务器磁盘读写速度均低于1MB/s。通过以上五步分析,可以确定主要问题是36.189服务器的瞬间系统IO比较高,而且主要是读速度比较高。可以通过DEM对36.189主机的监控信息印证这个分析,如下图八所示,6月8日3:00左右,36.189服务器的文件读速度达到845MB/s,几乎没有写操作,而3.187/188服务器的文件读写速度很低。
图七
图八
通过以上分析,DEM告警原因主要是36.189服务器在3:00时进行数据增量备份时瞬间文件读速度高,导致DEM在这一分钟左右时间无法获取到数据库的状态而发出告警。如果限制数据备份时的瞬间读速度,是不是就可以解决这个问题,在测试环境进行验证。
(2)解决方法
方法一:在数据备份时进行读速度限制,在备份恢复手册中有对应的命令:LIMIT READ SPEED X,单位为MB/S,0表示无限制。在备份作业任务中也可以进行设置,推荐限速使用200-300MB/s。在备份限速300MB/s时,文件瞬间读速度可以控制在500MB/s以下。实际值与服务器的CPU、内存、磁盘读写速度和网络带宽有关。命令示例:BACKUP DATABASE '/home/dmdba/DAMENG/dm.ini' FULL BACKUPSET '/home/dmdba/dmbackup/DB_FULL_DAMENG_2023061601' limit read speed 300 compressed level 1 parallel 2;
方法二:数据库备份任务影响了连接创建的响应时间,触发了连接超时(默认5s)。调整监控数据库的连接超时时间,connectTimeout=50000(在DEM平台数据库连接配置中,在连接参数中加入以上配置)。
文章
阅读量
获赞