DM web 版数据库管理工具(DEM)提供了针对数据守护集群的图形化部署与监控功能。在项目运维过程中,会经常使用dem,以下简单记录了使用DEM过程中遇到的问题。
DEM突然推送所有机器连接失败,因此猜测极大概率是DEM出现了问题。
首先找一台监控上添加过的机器,ping dem_ip,确认网络没有问题后,查看tomcat相关日志。
最后在catalina.2024-05-09.log日志中查看到是"java.lang.OutOfMemoryError: Java heap space",确认是JVM堆空间不足,需要调整JAVA_OPTS中的内存参数。
tomcat运行堆内存参数设置在catalina.sh文件中,如果使用的是Windows操作系统,则在catalina.bat中。
这台机器内存15G,原本的堆内存参数配置是:-Xms512m -Xmx1024m -XX:MaxPermSize=512m,调整为-Xms2048m -Xmx2048m -XX:MaxPermSize=4096m,并且重启tomcat服务即可。
注: 应根据你的应用程序的实际内存需求来设置-Xmx参数。设置过大的-Xmx值可能会导致内存的浪费,而设置过小的-Xmx值可能会导致OutOfMemoryError。
在月底的时候,DEM告警很频繁,但是到某天下午,突然没有接到邮件推送,但是DEM平台是有告警记录的。
查看DEM日志,报错“Invalid Address”“too much recipient”
在往期的历史日志中也可以找到该报错,可见该问题一直存在。
根据报错在百度上查询可知,是由于邮箱账号群发消息存在上限,查看历史推送邮件,基本上都是每天推送200条之后就不再推送。
大多数DEM告警都是重复推送消息,因此将重复告警的频率降低,避免出现故障时出现告警邮件无法推送的情况。
客户有自建的zabbix监控平台,上面会对达梦备份进行监控,但是由于一部分数据库版本比较早,因此无法使用v$backup_history视图,需要每周做定期的自动巡检,定时进行推送。
但是推送的自动巡检结果中,有很多提示“未检测到备份集”的情况,不能满足对备份进行巡检的需求。
首先查看dem是如何对备份进行巡检的,是通过查询v$backupset视图进行的,使用的备份查询路径可以在DEM平台上进行手动配置。
查询部分机器的v$backupset视图之后,发现不会记录备份集情况,打开机器查看备份,并不是以备份集的方式进行的,查阅相关文档,基于备份集的备份作业TYPE设置为6,查询不到备份集是因为TYPE设置为5了。
将备份作业的备份类型由5修改为6,以备份集的方式进行备份,自动巡检就可以查询到备份集情况。
-- 如果修改了增备作业,没有基备份,需要手动做一个基备份
SP_JOB_CONFIG_START('除周六外每晚凌晨1点增量备份');
SP_ALTER_JOB_STEP('除周六外每晚凌晨1点增量备份', '除周六外每晚凌晨1点增量备份', 6, '11000000/dmbak/DAMENG/db_backup|/dmbak/DAMENG/db_backup',0,0,0,0,'',0);
SP_JOB_CONFIG_COMMIT('除周六外每晚凌晨1点增量备份');
-- 修改全备
SP_JOB_CONFIG_START('每周六凌晨1点全库备份');
SP_ALTER_JOB_STEP('每周六凌晨1点全库备份', '每周六凌晨1点全库备份', 6, '01000000/dmbak/DAMENG/db_backup',1,2,0,0,'',0);
SP_JOB_CONFIG_COMMIT('每周六凌晨1点全库备份');
有一台服务器在晚上进行过一次操作系统替换后,DEM监控就采集不到数据了,机器IP一直标黄色。
首先对于网络进行排查,长ping机器,或者使用telnet都是没有问题的。
打开“实时监控”的界面,是可以正常采集数据的,但是其他界面是采集不到实时数据的。
查看机器时间,发现时间慢了10分钟,导致采集不到数据。
手动设置机器时间,保持一致,DEM即可采集到数据。
关于DEM使用中的问题,会保持更新和记录的。
文章
阅读量
获赞