摘要金融行业关键核心系统需要面对高并发的业务场景，要能够快速处理大量的交易请求，保证系统的稳定性和可靠性，以避免任何可能的业务中断或数据损失。基于达梦共享集群技术的两地三中心解决方案，提供多点写入、负载均衡、无感故障切换等特性，保障系统出现故障时依然能够快速恢复并提供数据服务。在灾难恢复能力上完全满足《银行业信息系统灾难恢复管理规范》中最高级别要求。

一、方案背景

数据库作为金融行业基础底座软件，在整个金融行业有着举足轻重的地位，随着国产数据库在金融行业推广的深入，目前国产数据库在金融领域已初具规模，并且在产品的改进，生态适配的融合，项目经验积累方面已经有相当的成果，在性能及功能上满足了金融行业外围系统的基本要求。金融行业为推进核心业务系统国产化改造，对国产数据库提出了更高要求，其中灾备作为改造中的重要指标。人民银行发布的《银行业信息系统灾难恢复管理规范》中明确了RTO/RPO与灾难恢复能力等级的关系，如下表：

灾难恢复能力等级	RTO	RPO
1	2天以上	1天至7天
2	24小时以上	1天至7天
3	12小时以上	数小时至1天
4	数小时至2天	数小时至1天
5	数分钟至2天	0至30分钟
6	数分钟	0

《规范》明确了银行的核心系统的灾难恢复能力最低应达到5级，即RT0=数分钟至2天，RPO=0至30分钟。
达梦依据银行的容灾需求，按照金融核心系统使用最广泛的共享存储集群技术，设计出了一套达梦金融两地三中心解决方案。方案是基于达梦自身的产品，由达梦数据库管理系统DM8、达梦数据库共享存储集群软件DM DSC与达梦数据守护集群软件DM DataWatch共同构建。这套解决方案充分发挥了中心内所有节点的数据库的性能，能够保障中心之间数据的一致性，提升数据的可靠性和安全性。同时，达梦数据库共享存储集群可以实现多点写入，解决大规模核心业务下的并发瓶颈，达梦数据守护集群可以实现故障秒级切换，确保业务的高可用性，从而提升用户的使用体验。此外，这套方案是基于达梦自主原创的产品，达梦可以根据用户的需求对方案进行配置，根据国产化服务器配置灵活调整节点数。在灾难恢复能力方面，达梦金融两地三中心的能力等级已经达到《银行业信息系统灾难恢复管理规范》中的6级标准，完全满足金融行业核心系统建设需求。

二、达梦两地三中心架构

达梦的两地三中心容灾系统属于数据级的容灾，主要目的是满足数据中心的高可用和灾难恢复能力，确保业务连续性和数据安全，高可靠、高安全、低成本、易维护，适用于对业务高可用性和数据安全具有极高标准的行业或系统。用户可以在达梦的两地三中心架构基础上构造应用级或业务级容灾系统。

2.1 概念定义

两地三中心：一种高可用性容灾方案，三个数据中心并存，能在任意两个数据中心受损的情况下，最大限度保障核心业务的连续运行，大大提高核心系统的可用性。
生产中心：即主中心，承担日常业务压力，对外提供服务。
同城容灾中心：是指在同城或邻近城市（通常要求距离主中心10km到300km）建立可独立承担关键系统运行的数据灾备中心，应用可在不丢失数据的情况下切换到同城灾备中心运行，保持业务连续运行，是两地三中心容灾方案的第一级容灾保护。
异地容灾中心：是指在异地的城市（通常要求距离主中心300km以上）建立一个数据灾备中心，应对区域性重大灾难，是两地三中心容灾方案的第二级容灾保护。
RTO：灾难发生后，信息系统从停顿到必须恢复的时间要求。
RPO：灾难发生后，数据必须恢复到的时间点要求。
运维管理平台：提供数据库管理，监控和维护的功能，实现远程管理和监控数据库实例及数据库集群的平台软件。
灾备管理控制端：支持同时访问三个数据中心，支持部署运维管理平台，提供日常监控运维及故障切换处理的操作平台。
DEM：达梦数据库运维管理平台软件。

2.2 网络要求

2.2.1 城域网要求

容灾网络距离：<100km，裸光纤连接。
传输延迟：<1ms （单向）。
网络真实带宽：大于业务的峰值写IO带宽。

2.2.2 广域网要求

容灾网络距离：无限制。
传输延迟：<50ms （单向）。
网络真实带宽：大于业务的平均写IO带宽。

2.2.3 灾备管理控制端

管理工作站需要三中心间通信。
网络距离要求：无限制。
通信网络带宽要求：10Mb/s。

2.3 硬件配置推荐

表2‑1 硬件配置推荐

硬件类型	CPU(C)	内存(G)	存储	备注
数据库服务器	64+	128+	SSD	根据业务实际需求配置
监视器服务器	8	16	SAS或SSD	根据业务实际需求配置
运维管理服务器	16+	32+	SAS或SSD	根据业务实际需求配置
共享存储	--	--	SSD	根据业务实际需求配置
交换机	--	--	--	AB中心各1台万兆交换机和1台千兆交换机，C中心一台千兆交换机

2.4 软件配置推荐

表2-2 软件配置推荐

类型	软件名称及版本	备注
操作系统	CentOS、银河麒麟等	需要按装gcc、gdb、unixODBC、perf等包
数据库	达梦数据库管理系统V8
集群组件	达梦数据守护集群软件V8
集群组件	达梦共享存储集群软件V8
运维管理平台	达梦运维管理平台DEM V3.0

2.5方案架构

2.3.png

图2-1 两地三中心整体架构图

如上图，拟在甲乙两地构建三中心的数据容灾系统，A为主业务中心，配置两节点DMDSC集群,承担日常业务，具备单节点故障自动切换能力。B为同城灾备中心，配置对等的两节点DMDSC集群，不参与自动切换；AB中心间数据实时同步，A中心整体故障时，B中心手动接管业务，数据不丢失。C中心为异地灾备中心，配置一个异步备库，在甲地灾难情况下手动接管业务，满足监管需求。
有条件情况下，建议在灾备管理控制端配置一台运维管理服务器，部署达梦企业管理平台DEM，用于日常监控运维。

2.6 方案能力

当前，达梦两地三中心方案提供如下功能：
（1）容灾能力达到《银行业信息系统灾难恢复管理规范》要求6级，RTO和RPO完全满足一类金融信息系统要求，生产中心内RPO=0，RTO<10S，同城灾备中心间RPO=0、RTO<30s，异地灾备中心RPO=1~60s、RTO<60s。
（2）高可用能力，保证核心业务系统可以7*24小时运行，各种软硬件故障下依然可提供安全可靠的数据服务，中心内部故障具备更快的处理速度，对应用透明，最大程度保障数据可靠性和业务连续性。
（3）高并发能力，中心内部所有节点均可对外提供完整的数据服务，适用于超大规模OLTP业务场景。
（4）横向扩展能力，考虑当前信创硬件环境，共享存储集群可以通过增加节点的方式提高业务承载能力，建议信创环境下同城双中心均采用四节点共享存储集群。
（5）备中心提供查询能力，承担诸如历史数据查询、报表等业务，分担业务压力。
（6）本方案可满足金融业核心系统日常运行和切换演练的常态化要求。

三、方案优势

达梦两地三中心方案优势如下：
（1）整体架构更优，集群内数据同步效率更高，通过采用共享存储技术，中心内部无需日志同步；同城容灾中心的所有实例可视为一个实时备库，生产中心只需向其发送一份日志即可。
（2）高性能与高资源利用率，生产中心采用共享存储集群，所有节点均可对外提供完整数据库服务，充分使用所有的硬件资源，承载更高的并发压力，拥有更好的性能表现。
（3）按需扩容，在任意一个中心内，当业务规模扩大或服务器性能不足时，可以通过增加一台或多台服务器来扩充数据库的处理能力，满足业务需求。
（4）架构简捷，达梦提供的架构简单成熟，易维护，在发生灾难时后续应急处理操作简洁。
（5）数据库层完全满足事务ACID性，相比于市场上广泛使用的分布式两地三中心架构，达梦基于集中式数据库的两地三中心方案不会打破事务的ACID特性维护数据库一致性、完整性和安全性的代价更低，效率更高。

四、测试场景及结论

4.1 环境配置

国产信创服务器配置：麒麟V10操作系统、64核CPU、128G内存、SSD磁盘阵列。
网络配置：生产中心与同城容灾中心间配置万兆心跳网，网络延迟<1ms；二者与异地容灾中心间（即“两地”间）配置了100M网络带宽，网络延时40ms左右。
压测场景：Jmeter模拟金融核心业务800并发OLTP混合场景。

4.2 故障场景

4.2.1 生产中心单节点故障

4.3.11.png

图4-1 生产中心单节点故障场景（故障处理前）

如上图，生产中心单节点故障场景，服务器硬件故障，导致服务器宕机。生产中心另一DSC节点自动接管业务，故障节点会话自动漂移至另一节点，数据无丢失RPO=0，业务恢复时间RTO<5s。此时系统架构如下：
4.3.12.png

图4-2 生产中心单节点故障场景（故障处理后）

故障恢复后，原故障节点自动重加入集群，无需手动操作。

4.2.2 同城容灾中心单节点故障

4.3.21.png

图4-3 同城容灾中心单节点故障场景（故障处理前）

如上图，同城容灾中心单节点故障场景，服务器硬件故障，导致服务器宕机。此时B中心的DMDSC集群另一节点正常，整个备库并未离线，由B中心内部的DMDSC集群进行故障自动处理，业务无感知RTO=0s，数据无丢失RPO=0。此时系统架构如下：
4.3.22.png

图4-4 同城容灾中心单节点故障场景（故障处理后）

故障恢复后，原故障节点自动重加入集群，无需手动操作。

4.2.3 异地容灾中心备库故障

4.3.3.png

图4-5 异地容灾中心备库故障场景

如上图，异地容灾中心备库故障场景，备库的服务器硬件故障，导致服务器宕机。主库仅将其到该库的归档置为失效状态即可，处理过程业务无感知RTO=0s，数据无丢失RPO=0。
待故障机器恢复后，若此时主库的归档未被覆盖，则备库可以自动重新加入集群；若主库的归档已被覆盖，则需要进行手动备份恢复。

4.2.4 生产中心整体故障

4.3.41.png

图4-6 生产中心整体故障场景（故障处理前）

如上图，模拟主中心整体故障场景，例如火灾等灾难情况，导致整个数据中心全部掉线。需要手动将业务切换到同城容灾中心，启动并登录同城容灾中心备用监视器执行一条强制接管命令即可，未故障的数据库不需要重启，业务自动重连，除人员反应时间外，切换时间RTO<30s，数据无丢失RPO=0。此时系统架构如下：
4.3.42.png

图4-7 生产中心整体故障场景（故障处理后）

待故障中心恢复后，若此时新的主库归档未被覆盖，故障数据库可以备库身份自动重新加入集群；若新的主库归档已被覆盖，需要手工使用日常备份结合归档来完成备库重建或在业务低峰期进行备份还原操作。

4.2.5 同城容灾中心整体故障

4.3.5.png

图4-8 同城容灾中心整体故障场景

如上图，模拟同城容灾中心整体故障场景，例如火灾、网络故障等情况，导致整个数据中心全部掉线。集群需要进行故障处理，业务连接不中断，业务恢复时间RTO<15s，数据无丢失RPO=0。
待故障中心恢复后，若此时主库归档未被覆盖，故障数据库可自动重新加入集群；若主库归档已被覆盖，需要手工使用日常备份结合归档来完成备库重建或在业务低峰期进行备份还原操作。

4.2.6 生产中心和同城容灾中心均故障

4.3.61.png

图4-10 生产中心和通常容灾中心均故障场景（故障处理前）

如上图，模拟主中心和同城容灾中心均故障的场景，例如地震等大规模灾难情况，导致两个数据中心全部掉线。需要手动将业务切换到异地容灾中心，将异步备库手动修改为主库，数据库需要重启，业务需要重连，除人员反应时间外，切换时间RTO<60s，数据丢失情况根据具体配置而定RPO=1~60s。此时系统架构如下：
4.3.62.png

图4-11 生产中心和通常容灾中心均故障场景（故障处理后）

此时若要恢复原有容灾架构需要手动备份还原。

4.3 灾备切换演练

应监管要求，商业银行每年应至少进行一次灾备切换演练，验证切换能力，达梦提供一键切换脚本与回切脚本，在业务停机窗口进行切换演练时使用。

4.3.1 同城灾备切换

切换脚本与回切脚本内容为监视器切换接口的调用，同城容灾备库的LSN与主库追平后方可进行操作。切换过程集群不需要重启，耗时<30s，回切过程同理。业务切换到同城容灾中心后的架构如下：
4.4.1.png

图4-12 同城灾备切换演练场景（切换后）

4.3.2 异地灾备切换

切换脚本与回切脚本脚本内容包括：集群关闭操作、关键ini配置文件替换过程、集群重启操作、监视器切换接口调用。异地容灾备库LSN追平主库后方可进行操作，切换过程集群需要重启，重启耗时<4min，切换耗时<60s，整体耗时<5min，回切过程同理。
业务切换到异地容灾中心的过程如下：
第一步：关闭集群。
第二步：替换关键ini配置参数，将异地容灾中心的异步备库改为实时备库，然后重启集群，架构如下：
4.4.21.png

图4-13 异地灾备切换演练场景（修改配置）

第三步：调用监视器切换接口，将业务切换到异地容灾中心，架构如下：
4.4.22.png

图4-14 异地灾备切换演练场景（切换后）

4.4 小结

场景	处理方式	RPO	RTO	复原方式
生产中心单节点故障	自动接管	0	<5s	自动恢复
同城容灾单节点故障	不切换	0	=0s	自动恢复
异地容灾备库故障	不切换	0	=0s	自动恢复
生产中心整体故障	手动切换	0	<30s	自动恢复
同城容灾中心故障	不切换	0	<15s	自动恢复
异地容灾中心故障	不切换	0	=0s	自动恢复
生产中心和同城容灾中心同时故障	手动切换	1~60s	<60s	手动恢复
同城灾备切换	手动切换	0	<30s	手动恢复
异地灾备切换	手动切换	0	重启耗时<4min；切换耗时<60s；整体耗时<5min	手动恢复

五、应用案例

基于共享存储集群方案，为金融行业大规模、长期应用和验证的成熟架构方案，达梦共享存储集群架构是在突破该关键技术和架构之后，进行功能加强的对等替换架构和方案，能更好的满足金融行业两地三中心的建设需求。
基于共享存储集群的达梦两地三中心方案的高可用特性，能够有效地提高金融服务质量，适用于大规模OLTP应用的同时备中心提供对等的服务能力，满足金融核心系统的信创改造需求和生产要求，满足客户对国产数据库金融服务质量的不断攀升的期待。目前在兴业银行、梅州客商行、武汉农商行和郑州银行等银行核心系统中投产运行，达梦期待与您携手开启金融信创新时代。

基于共享存储集群技术的两地三中心解决方案

一、 方案背景

二、 达梦两地三中心架构