集群健康检查

一、前言

1.1 概念

集群健康检查主要用于了解集群的运行情况,通过集群的健康检查,可以及时地发现集群存在的问题以及隐患,帮助我们更好的发现问题和解决问题。这对于保障集群正常运行具有极大的实用价值。集群的健康检查主要包含:系统健康检查、实例健康检查和集群运行状态检查。本文主要对集群运行状态检查和需要额外注意的检查项进行详细说明。达梦数据库集群健康检查分为:

  • 数据守护集群健康检查
  • MPP 集群健康检查
  • DSC 集群健康检查

1.2 术语

集群健康检查中可能会使用到的相关术语:

  • 网络:具有独立功能的计算机通过通信介质连接起来就形成了网络。
  • 集群:将多台服务器联合起来组成集群来实现综合性能优于单个大型服务器的技术。
  • 健康检查:检查集群的健康程度,确保集群的正常运行。
  • 监视器:基于监视器接口实现的一个命令行工具,用于监控守护系统内守护进程、数据库实例信息。

1.3 适用范围

本文中所涉及内容适用于达梦数据库的集群,包括数据守护集群、MPP 集群和 DSC 集群等。

二、数据守护集群健康检查

2.1 集群介绍

DM 数据守护(Data Watch)是一种集成化的高可用、高性能数据库解决方案,数据守护可以配置成实时主备集群、读写分离集群,基本不受数据规模的影响,只需数秒时间就可以将备库切换为主库对外提供数据库服务。

2.2 网络环境检查

为了确保集群的稳定性,需要对网络环境进行检查,心跳网络对 mal 系统的影响非常大,如果网络丢包或者延迟较大,则会严重影响 mal 系统的处理能力,从而导致整个集群出现响应服务请求慢的情况。

服务器必须至少有一个网卡,使用 ifconfig 命令可查看网卡情况,集群环境建议有两块网卡,一个是业务 IP,一个是心跳 IP。如果条件允许,主备集群、读写分离集群要求网卡是千兆网卡以上,若带宽过低,则会影响数据传输、集群 mal 通信。网卡信息可用 ethtool 命令查看。

2.3 集群节点时间检查

集群节点时间检查是为了确保各节点时间一致,若节点时间不一致,则会影响 mal 通信,从而影响集群数据同步。可使用命令 date 查看服务器节点时间是否与当前时间符合。若时间不一致,可在 root 用户下使用 date -s 命令修改服务器时间。

2.4 相关参数检查

数据守护集群的需要检查配置文件中的相关参数设置是否合理。主要需要检查以下配置文件:dm.ini、sqllog.ini、dmarch.ini、dmmal.ini、dmwatcher.ini、dmmoitor.ini。

其中,dm.ini、sqllog.ini 可参考 实例健康检查-数据库参数检查 章节内容。本节主要介绍 dmarch.ini、dmmal.ini、dmwatcher.ini 和 dmmoitor.ini 文件参数配置。配置文件中大部分为功能性参数,只要满足集群搭建要求即可,需要重点关注检查的参数如下:

1. dmarch.ini 配置文件

该配置文件主要是控制归档文件的形成。数据守护集群的架构下,由于主库需要向备库同步归档或者当备库切换为主库时也需要向原主库同步归档,因此都需要比单机的归档配置多配置一个归档类型,详细配置如下:

[dmdba@~]$ vi /opt/dmdbms/data/DAMENG/dmarch.ini

ARCH_WAIT_APPLY     = 0  #0:高性能(故障手切) 1:事务一致(故障自切)
[ARCHIVE_LOCAL]
ARCH_TYPE         = LOCAL  #本地归档类型
ARCH_DEST       = /opt/dmdbms/data/DAMENG/arch/  #本地归档存放路径
ARCH_FILE_SIZE           = 1024  #单个归档大小,单位 MB
ARCH_SPACE_LIMIT         = 51200  #归档上限,单位 MB
[ARCHIVE_REALTIME1]
ARCH_TYPE                = REALTIME  #实时归档类型
ARCH_DEST                = GRP1_RT_02  #实时归档目标实例名

部分参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
ARCH_FILE_SIZE 1024 单位 MB,本地单个归档文件最大值。建议 2048。 动态
ARCH_SPACE_LIMIT 0 单位 MB,0 表示无限制,范围 1024~4294967294 MB。
建议为归档存放目录容量的 80%。
动态

2. dmmal.ini 配置文件

dmmal.ini 是集群数据库各个节点之间内部通讯的验证文件,需要各个节点配置严格保持一致,否则会影响集群的运行。详细配置如下:

cd /dmdata/实例名/
vi dmmal.ini
MAL_CHECK_INTERVAL         = 60  #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL     = 60  #判定 MAL 链路断开的时间

[MAL_INST1]
MAL_INST_NAME   = GRP1_RT_01  #实例名,和 dm.ini 的 INSTANCE_NAME 一致
MAL_HOST    = 192.168.1.1  #MAL 系统监听 TCP 连接的 IP 地址
MAL_PORT      = 5336  #MAL 系统监听 TCP 连接的端口
MAL_INST_HOST   = 172.16.1.1  #实例的对外服务 IP 地址
MAL_INST_PORT     = 5236  #实例对外服务端口,和 dm.ini 的 PORT_NUM 一致
MAL_DW_PORT        = 5436  #实例对应的守护进程监听 TCP 连接的端口
MAL_INST_DW_PORT  = 5536  #实例监听守护进程 TCP 连接的端口

[MAL_INST2]
MAL_INST_NAME      = GRP1_RT_02
MAL_HOST                 = 192.168.1.2
MAL_PORT                 = 5336
MAL_INST_HOST            = 172.16.1.2
MAL_INST_PORT            = 5236
MAL_DW_PORT              = 5436
MAL_INST_DW_PORT         = 5536

部分参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
MAL_CHECK_INTERVAL 30 检测线程检测间隔,范围 (0~1800),如果配置为 0,则表示不进行链路检测。建议修改为 60s,以降低因为网络延时出现脑裂的风险。 静态
MAL_CONN_FAIL_INTERVAL 10 检测线程认定链路断开的时间,默认 10s,范围 (2~1800)。建议修改为 60s,以降低因为网络延时出现脑裂的风险。 静态

3. dmwatcher.ini 配置文件

dmwatcher.ini 是集群守护进程的配置文件。其中需要注意参数 DW_MODE,INST_AUTO_RESTART,INST_INI 和 INST_STARTUP_CMD,详细配置如下:

[dmdba@~]$ vi /opt/dmdbms/data/DAMENG/dmwatcher.ini

[GRP1]
DW_TYPE                = GLOBAL  #全局守护类型
DW_MODE               = MANUAL  #MANUAL:故障手切 AUTO:故障自切
DW_ERROR_TIME        = 20  #远程守护进程故障认定时间
INST_ERROR_TIME       = 20  #本地实例故障认定时间
INST_RECOVER_TIME     = 60  #主库守护进程启动恢复的间隔时间
INST_OGUID              = 45331  #守护系统唯一 OGUID 值
INST_INI                 = /opt/dmdbms/data/DAMENG/dm.ini  #dm.ini 文件路径
INST_AUTO_RESTART     = 1  #打开实例的自动启动功能
INST_STARTUP_CMD      = /opt/dmdbms/bin/dmserver  #命令行方式启动
RLOG_SEND_THRESHOLD  = 0  #指定主库发送日志到备库的时间阈值,默认关闭
RLOG_APPLY_THRESHOLD     = 0  #指定备库重演日志的时间阈值,默认关闭

部分参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
DW_MODE MANUAL 主备切换模式:MANUAL 手动切换模式,AUTO 自动切换
模式。建议使用自动切换模式。
静态
INST_AUTO_RESTART 0 是否自动重启数据库实例,0:不自动重启
1:自动重启。建议为 1。
静态
INST_STARTUP_CMD 启动数据库的命令,请写数据库进程的决定路径。 静态

4. dmmoitor.ini 配置文件

dmmonitor.ini 是守护集群监视器的配置文件,其中需要确认参数 MON_DW_Confirm,MON_LOG_INTERVAL,MON_LOG_FILE_SIZE 和 MON_LOG_SPACE_LIMIT,详细配置如下:

[dmdba@~]$ vi /opt/dmdbms/bin/dmmonitor.ini

MON_DW_CONFIRM     = 0  #0:非确认(故障手切) 1:确认(故障自切)
MON_LOG_PATH               = ../log  #监视器日志文件存放路径
MON_LOG_INTERVAL           = 60  #每隔 60s 定时记录系统信息到日志文件
MON_LOG_FILE_SIZE          = 512  #单个日志大小,单位 MB
MON_LOG_SPACE_LIMIT        = 2048  #日志上限,单位 MB
[GRP1]
MON_INST_OGUID           = 45331  #组 GRP1 的唯一 OGUID 值
MON_DW_IP  = 192.168.1.1:5436  #IP对应MAL_HOST,PORT对应MAL_DW_PORT
MON_DW_IP                = 192.168.1.2:5436

部分参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
MON_DW_CONFIRM 0 是否配置为确认模式。0:监控模式;1:确认模式。 静态
MON_LOG_FILE_SIZE 64 单个日志文件大小,范围 16~2048,单位为 MB,
达到最大值后,会自动生成并切换到新的日志文件中。
建议为 64 MB。
静态
MON_LOG_SPACE_LIMIT 0 日志总空间大小,取值 0 或者 256~4096,单位为 MB,
表示没有空间限制,如果达到设定的总空间限制,
会自动删除创建时间最早的日志文件。建议为 2048 MB。
静态

更多参数详解可参考数据库安装目录的 doc 目录下《DM8 数据守护与读写分离集群》。

2.5 集群运行状况检查

通过监视器,可以监控数据守护系统的运行情况,获取主备库状态、守护进程状态、以及主备库数据同步情况等信息。同时,监视器 (dmmonitor) 还提供了一系列命令来管理数据守护系统,监视器建议配置在独立于主备所在机器之外的第三台机器上,需要配置 dmmonitor.ini。在数据库安装目录下的 bin 目录下输入以下命令即可启动监视器。

./dmmonitor dmmonitor.ini

image.png监视器集群检查:输入 show 命令。可以查看集群的运行状态,如下图所示,WSTATUS 显示为 open 表示守护进程处于开启状态,INST_OK 为 OK 表示数据库处于正常运行状态,ISTATUS 为 open 表示数据库处于开启状态。

image.png

2.6 日志检查

数据守护集群,由至少两台数据库服务器组成,与单实例数据库相比,还需要检查守护进程日志,且集群中的每一个节点的数据库运行日志、守护进程日志都要检查。

数据守护进程日志主要记录守护进程对数据库进程运行情况的监控信息和守护集群之间的内部通讯信息。该日志存放在 %DM_HOME/log,命名方式为 dm_watcher_日期.log。可以通过过滤日志中 ERROR 关键字的方式来分析日志中的异常情况,并将结果输出至文件中。

例如过滤 dm_watcher_202011.log 中的 ERROR 信息,并输出到 error.log 文件中,可参考如下命令:

cat dm_watcher_202011.log | grep "ERROR" >error.log

2.7 切换模式检查

需要对数据守护集群切换模式进行检查,主库出现故障时,可以快速将备库切换为主库,继续提供数据库服务,确保数据库服务不中断。切换模式分为自动切换和手动切换,满足用户不同需求。其中,配置自动切换的前提是已经部署确认监视器。在提供第三方机器部署确认监视器情况下,可以配置为故障自动切换模式,主库出现故障时,系统自动将备库切换为主库对外提供数据库服务。

检查主备库 dmwatcher.ini 文件的 DW_MODE 参数。

  • MANUAL:故障手动切换模式,故障时前台启动监视器进行切换。
  • AUTO:故障自动切换模式,需要后台运行确认监视器。

2.8 备份检查

备份的主要目的是数据容灾,保证数据的安全性,在数据库发生故障时,通过还原备份集,将数据恢复到可用状态,数据库备份健康检查重点在于检查备份的合理性和有效性。对于集群,需要对数据库备份进行定期检查,备份检查请参考 实例健康检查-作业检查 相关内容。

2.9 归档检查

备份与恢复过程都依赖归档日志,归档日志是保证数据一致性和完整性的重要保障。配有归档日志的数据库系统在出现故障时丢失数据的可能性更小。对于集群,需要对归档进行定期检查。

通过 V$ARCH_STATUS 动态视图可以获取归档状态的相关信息。归档状态是由主库记录和维护的,此视图只在主库上查询有效,备库上的查询结果没有实际意义。

SELECT * FROM V$ARCH_STATUS;

三、MPP 集群健康检查

3.1 集群介绍

达梦大规模并行处理 MPP(DM Massively Parallel Processing,缩写 DM MPP)是基于达梦数据库管理系统研发的完全对等无共享式集群组件,支持将多个 DM 数据库实例组织为一个并行计算网络,对外提供统一的数据库服务。

3.2 网络环境检查

为了确保集群的稳定性,需要对网络环境进行检查,心跳网络对 mal 系统的影响非常大,如果网络丢包或者延迟较大,则会严重影响 mal 系统的处理能力,从而导致整个集群出现响应服务请求慢的情况。

服务器必须至少有一个网卡,使用 ifconfig 命令可查看网卡情况。集群环境建议有两块网卡,一个是业务 IP,一个是心跳 IP。MPP 集群要求网卡是千兆网卡以上,若带宽过低,会影响数据传输、集群 mal 通信,网卡信息可用 ethtool 命令查看。

3.3 集群节点时间检查

集群节点时间检查是为了确保节点的时间一致,若节点时间不一致,则会影响 mal 通信,从而影响集群数据同步。可使用命令 date 查看服务器节点时间是否与当前时间符合,若时间不一致,可在 root 用户下使用 date -s 命令修改服务器时间。

3.4 相关参数检查

MPP 集群涉及到的配置文件主要有:dm.ini、dmmal.ini 和 dmmpp.ctl 等。其中,dm.ini 可参考 实例健康检查-数据库参数检查 章节内容。本节主要介绍 dmmal.ini 和 dmmpp.ctl 文件参数配置。配置文件中大部分为功能性参数,只要满足集群搭建要求即可,检查时需要重点关注的参数如下:

1. dmmal.ini 配置文件

MAL 系统是 DM 数据库实例间的高速通信系统,是基于 TCP 协议实现的一种内部通信机制,具有可靠、灵活、高效的特性。DM 通过 MAL 系统实现实例间的消息通讯。dmmal.ini 是集群数据库各个节点之前内部通讯的验证文件,需要各个节点配置严格保持一致,否则会影响集群的运行。

MAL_CHECK_INTERVAL = 5 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5 #判定 MAL 链路断开的时间

[MAL_INST1]
 MAL_INST_NAME = EP01 #实例名,和 dm.ini 中的 INSTANCE_NAME 一致
 MAL_HOST = 192.168.131.229 #MAL 系统监听 TCP 连接的 IP 地址
 MAL_PORT = 5337 #MAL 系统监听 TCP 连接的端口
 MAL_INST_HOST = 192.168.131.174 #实例的对外服务 IP 地址
 MAL_INST_PORT = 5237 #实例的对外服务端口,和 dm.ini 中的 PORT_NUM 一致

[MAL_INST2]
 MAL_INST_NAME = EP02
 MAL_HOST = 192.168.131.169
 MAL_PORT = 5337
 MAL_INST_HOST = 192.168.131.120
 MAL_INST_PORT = 5237

部分参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
MAL_CHECK_INTERVAL 30 检测线程检测间隔,范围 (0~1800),
如果配置为 0,则表示不进行链路检测,建议修改为 60 s。
静态
MAL_CONN_FAIL_INTERVAL 10 检测线程认定链路断开的时间,默认 10 s,
范围 (2~1800),建议修改为 60 s。
静态

2. dmmpp.ctl 配置文件

dmmpp.ctl 是一个二进制文件,用户不能直接配置,需要先配置 dmmpp.ini,再通过工具进行转换,并且需要保证 MPP 系统中所有节点的 dmmpp.ctl 完全相同。配置 dmmpp.ini 如下:

[service_name1] 
 mpp_seq_no = 0 #实例在 mpp 系统内的序号,取值范围为 0~1023
 mpp_inst_name = EP01 #实例名
 
[service_name2] 
 mpp_seq_no = 1
 mpp_inst_name = EP02

更多参数详解可参考数据库安装目录的 doc 目录下《DM8 大规模并行处理 MPP》。

3.5 日志检查

大规模并行处理集群由至少两台数据库服务器组成,与单实例数据库相比日志文件检查基本相同,具体请参考实例健康检查-日志健康检查

3.6 备份检查

备份的主要目的是数据容灾,保证数据的安全性,在数据库发生故障时,通过还原备份集,将数据恢复到可用状态,数据库备份健康检查重点在于检查备份的合理性和有效性。对于集群,需要对数据库备份进行定期检查,备份检查请参考 实例健康检查-作业检查 的内容。

3.7 归档检查

备份与恢复过程都依赖归档日志,归档日志是保证数据一致性和完整性的重要保障。配有归档日志的数据库系统在出现故障时丢失数据的可能性更小。集群中需要定期进行归档检查。

通过 V$ARCH_STATUS 动态视图可以获取归档状态的相关信息。

SELECT * FROM V$ARCH_STATUS;

四、DSC 集群健康检查

4.1 集群介绍

DM DSC 集群是一个单数据库、多实例的集群系统。数据库部署在共享存储上,供所有节点访问。多个数据库实例可以同时访问、修改同一个数据库的数据,用户可以登录集群中的任意一个数据库实例,获得完整的数据库实例数据。具有高可用性、高性能、负载均衡等特性。

4.2 网络环境检查

为了确保集群的稳定性,需要对网络环境进行检查,心跳网络对 mal 系统的影响非常大,如果网络丢包或者延迟较大,则会严重影响 mal 系统的处理能力,从而导致整个集群出现响应服务请求慢的情况。

服务器必须至少有一个网卡,使用 ifconfig 命令可查看网卡情况。集群环境建议有两块网卡,一个是业务 IP,一个是心跳 IP。DMDSC 集群建议是万兆网卡。若带宽过低,会影响数据传输和 mal 通信,网卡信息可用 ethtool 命令查看。

4.3 集群节点时间检查

集群节点时间检查是为了确保节点的时间一致,若节点时间不一致,则会影响 mal 链接,从而影响集群数据同步。可使用命令 date 查看服务器节点时间是否与当前时间符合,若时间不一致,可在 root 用户下执行 date -s 命令修改服务器时间。

4.4 相关参数检查

共享存储集群涉及到的配置文件主要有:dm.ini、sqllog.ini、dmarch.ini、dmdcr.ini、dmcssm.ini 等。

其中,dm.ini 可参考 实例健康检查-数据库参数检查 章节内容。本节主要介绍 dmdcr.ini 和 dmcssm.ini 文件参数配置。配置文件中大部分为功能性参数,只要满足集群搭建要求即可,检查时需要重点关注的参数如下:

1. dmdcr.ini 配置文件

dmdcr.ini 为共享存储集群各个进程输入参数的配置文件,并且还记录该节点在集群中的编号。需要注意参数 DMDCR_ASM_RESTART_INTERVAL,DMDCR_DB_RESTART_INTERVAL,和 DMDCR_AUTO_OPEN_CHECK,详细配置如下:

cd /dmdb/dmdata
vi dmdcr.ini

[dmdba@~]# vi /opt/dsc/config/dmdcr.ini 
DMDCR_PATH = /dev/raw/raw1  #DCR 磁盘路径
DMDCR_MAL_PATH = /opt/dsc/config/dmasvrmal.ini    #dmasmsvr 使用的 MAL 配置文件路径
DMDCR_SEQNO = 0  #当前节点序号
DMDCR_AUTO_OPEN_CHECK = 90  #指定时间内如果节点实例未启动,DMCSS 会自动将节点踢出集群环境,单位为秒

#ASM重启参数,命令行方式启动
DMDCR_ASM_RESTART_INTERVAL = 30  
#DMDCR_ASM_STARTUP_CMD = /opt/dsc/dmdbms/bin/dmasmsvr dcr_ini=/opt/dsc/config/dmdcr.ini 

#DB重启参数,命令行方式启动
#DMDCR_DB_RESTART_INTERVAL = 60 
#DMDCR_DB_STARTUP_CMD = /opt/dsc/dmdbms/bin/dmserver path=/opt/dsc/config/dsc0_config/dm.ini dcr_ini=/opt/dsc/config/dmdcr.ini

参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
DMDCR_ASM_RESTART_INTERVAL 60 DMCSS 认定 DMASM 节点故障重启的时间间隔(取值 0~86400 s),DMCSS 只负责和 DMDCR_SEQNO 节点号相等的 DMASM 节点的故障重启,如果配置为 0,则不会执行自动拉起操作。建议值为 60。 静态
DMDCR_DB_RESTART_INTERVAL 60 DMCSS 认定 DMDSC 节点故障重启的时间间隔(取值 0~86400 s),DMCSS 只负责和 DMDCR_SEQNO 节点号相等的 DMDSC 节点的故障重启,如果配置为 0,则不会执行自动拉起操作。建议值为 60。 静态

2. dmcssm.ini 配置文件

dmcssm.ini 是共享存储集群监视器的配置文件,其中需要注意参数 CSSM_LOG_FILE_SIZE 和 CSSM_LOG_SPACE_LIMIT,详细配置如下:

[dmdba@~]# vi /opt/dsc/dmdbms/bin/dmcssm.ini 
CSSM_OGUID = 45331   #用于和DMCSS通信,和dmdcr_cfg.ini中的DCR_OGUID保持一致
CSSM_CSS_IP = 192.168.1.1:5336  #DMCSS所在机器的ip与监听端口,ip和port分别对应dmdcr_cfg,ini中DMCSS节点的DCR_EP_HOST和DCR_EP_PORT
CSSM_CSS_IP = 192.168.1.2:5337 
CSSM_LOG_PATH = ../log   #日志文件路径
CSSM_LOG_FILE_SIZE = 512  #单个日志文件大小
CSSM_LOG_SPACE_LIMIT = 2048  #日志上限

参数详解如下表所示:

参数名称 默认值 参数描述及建议 属性
CSSM_LOG_FILE_SIZE 64 单个日志文件大小,范围 16~2048,单位为 MB,
达到最大值后,会自动生成并切换到新的日志文件中。
建议为 64 MB。
静态
CSSM_LOG_SPACE_LIMIT 0 日志总空间大小,取值 0 或者 256~4096 单位为 MB,
0 表示没有空间限制,如果达到设定的总空间限制,
会自动删除创建时间最早的日志文件。建议为 2048 MB。
静态

更多参数详解可参考数据库安装目录的 doc 目录下《DM8 共享存储集群》。

4.5 集群运行状况检查

DMCSSM 监视器具有监控集群状态、打开/关闭指定组的自动拉起、强制 OPEN 指定组、启动/退出集群、集群故障处理功能,同时,还提供了一系列命令来对集群进行管理。启动监视器需要配置 dmcssm.ini 文件,输入以下命令即可打开 DMCSSM 监视器:

./dmcssm ini_path=/dm8/config/dmcssm.ini

输入 show 命令后可以监视集群的运行状态,如下图所示,is_ok 为 OK 状态表示实例正常,active 为 true 表示实例处于活动状态,inst_status 说明了实例处于开启状态,vtd_status 说明了集群处于 working 状态。

image.png

同时也可以通过 V$DSC_EP_INFO 动态视图查询实例的信息。

select * from v$dsc_ep_INfo;

4.6 日志检查

共享存储集群,是由多台数据库服务器组成的。与单实例数据库相比,还需要检查 CSS 日志和 ASM 日志,且集群中每一个节点的数据库运行日志、CSS 日志和 ASM 日志都要检查。

  1. 数据库运行日志。集群中数据库运行日志的查看方式和单实例相同,需要检查数据库服务日志、DMAP 进程日志和数据库备份日志,具体详情请参考 实例健康检查-运行日志健康检查
  2. 数据库 DMCSS 日志。DMCSS 日志是数据库集群监控进程的运行日志,该日志存放在 %DM_HOME/log,命名格式为 dm_CSS 节点名_日期.log。
  3. 数据库 DMASM 日志。DMASM 日志是 DM 分布式文件系统的运行日志,其中记录了 DMASM 系统的运行信息和报错信息,该日志存放在 %DM_HOME/log,命名格式为 dm_ASM 节点名_日期.log。

对于以上日志,可以通过滤服务器日志中 ERROR 关键字的方式来判断是否有问题。例如过滤 dm_CSS0_202011.log 中的 ERROR 信息,并输出到 error.log 文件中,可参考如下命令:

cat dm_CSS0_202011.log | grep "ERROR" >error.log

4.7 备份检查

备份的主要目的是数据容灾,保证数据的安全性,在数据库发生故障时,通过还原备份集,将数据恢复到可用状态,数据库备份健康检查重点在于检查备份的合理性和有效性。对于集群,需要对数据库备份进行定期检查,备份检查请参考 实例健康检查-作业检查 的内容。

4.8 归档检查

检查数据库归档配置文件是否有配置远程归档及本地归档。一般建议 DMDSC 集群中的节点,除了配置本地归档之外,再双向配置集群中所有其他节点的远程归档。检查实例的 dmarch.ini 配置:

[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL   #本地归档类型
ARCH_DEST =DMDATA/DSC0/arch  #本地归档存放路径
ARCH_FILE_SIZE = 128   #单个归档大小,单位MB
ARCH_SPACE_LIMIT = 0    #归档上限,单位MB
[ARCH_REMOTE1]
ARCH_TYPE = REMOTE   #远程归档类型
ARCH_DEST = DSC1   #远程数据库实例名
ARCH_INCOMING_PATH =DMDATA/DSC1/arch   #本地存储路径
ARCH_FILE_SIZE = 128   #单个归档大小,单位MB
ARCH_SPACE_LIMIT = 0    #归档上限,单位MB

通过 V$ARCH_STATUS 动态视图可以获取归档状态的相关信息。

SELECT * FROM V$ARCH_STATUS;

4.9 ASM 空间使用率检查

如果使用有 ASM 文件系统,可定期通过 V$ASMGROUP 视图查看 ASM 磁盘组信息,登录任意节点,检查执行结果是否一致。可参考如下命令查看 ASM 空间使用率:

select GROUP_NAME, round((((TOTAL_SIZE-FREE_SIZE)*1.0/TOTAL_SIZE)*100),2)||'%' as 使用率 from V$ASMGROUP;

五、参考

若以上内容无法解决您的问题,可以在 达梦技术社区 提问交流。

微信扫码
分享文档
扫一扫
联系客服