注册
DMETL总览介绍
专栏/技术分享/ 文章详情 /

DMETL总览介绍

Eric 2025/08/22 61 0 0
摘要

1 DMETL介绍

DMETL(达梦数据交换平台)是武汉达梦数据库股份有限公司自主研发的一站式数据集成与处理平台,融合传统ETL功能与分布式大数据技术,支持异构数据源的全量/增量同步、复杂清洗转换及高效装载。

1.1 核心定位与功能

1.1.1 支持的数据源

数据源​ ​支持版本​ ​连接方式​
​达梦数据库​ DM7、DM8、DMDSC、DPC 原生JDBC/ODBC
​Oracle​ 9i/10g/11g/12c/19c JDBC/ODBC
​MySQL​ 5.5/5.6/5.7/8.0 JDBC
​SQL Server​ 2008/2012/2014/2016/2019 JDBC/ODBC
​PostgreSQL​ 9.x/10.x/11.x/12.x/13.x JDBC
​DB2​ 9.7/10.5/11.1 JDBC/ODBC
​Sybase​ ASE 15/16 JDBC
​国产数据库​ 人大金仓(Kingbase)、神通(Osbase)、南大通用(Gbase)等 JDBC/ODBC

1.2 架构特点

组件 功能
管理器 统一管理数据源、工程、调度任务
调度器 控制任务执行时序,支持Cron表达式定时触发
执行器 分布式节点并行处理数据(集群模式下可水平扩展)
元数据库 存储流程配置信息,支持内置Derby或外置数据库(如DM8/Oracle)

1.3 应用场景

1.3.1 数据开发与整合

主要是将不同来源的各种数据,经过数据清洗的转换后变为统一格式存储的过程。这个场景主要是由于数据量大,数据种类丰富,且由于不同来源的数据质量和格式的不同导致数据的不一致性等问题,则需要适用dmetl来进行处理。

dmetl支持多节点共享元数据库,即可以统一监控管理各个执行器节点,方便对于转换过程的监控;并且支持远程的启停升级,提高了项目实施部署的运维效率;全面的数据源支持,支持各种主流的数据库。

1.3.2 数据共享与交换

对于一些业务场景中可能存在数据交换,数据交换一般是指跨部门、跨地域的数据共享和业务协同等涉及多个部门的数据处理,那么在这样复杂的数据交换场景下,部门与部门之间的联系有可能因为地域部门不同导致数据库的格式、版本等不同,所以需要dmetl来进行统一的监控管理数据源和数据交换节点。

1.3.3 数据迁移与同步

数据迁移和同步主要涉及到了新老版本的的系统升级的时候出现的问题,需要一次性以及周期性的将数据源从源数据库到目的数据库中,需要通过两步:1.通过全量抽取数据加载到中间库中。2.用过增量抽取模块再将数据放到目的库中。

2 ETL搭建

使用ETL主要也分为三个数据库

  • A:源库,用来从里面抽取数据并放入中间库
  • B:中间库,通过从源库的镜像同步来传输数据放入中间库
  • C:目的库,通过从中间库进行数据的处理转换使得两端规则相通

一般来说我们讲源库和中间库可以放到一个服务器中,但目的库和etl工具要放一起,一般放到本机能直接连接的服务器上,因为在linux上的dmetl的客户端工具在使用的过程中很有可能出现断连的情况,以及操作不便,所以一般在配置规则的时候最好在windows上进行配置。

3 常用命令

--查看dm数据库服务 ps -ef | grep dmser --查看dmetl服务 ps -ef | grep dmetl --复制文件 cp a.txt /home/b.txt --ssh连接服务器 ssh root@服务器地址 -Y //-X是图形化开启 --移动文件/重命名 mv a.txt /home/b.txt

4 工作流程

4.1 初始准备工作

  1. 先讲源端的数据库所需要的表结构进行筛选拉取,并且都放入到dmetl中的数据库源中。
  2. 在中间库中导入对应的源端的表结构,并生成影子表SHADOW_CDC(等到我们做增量同步的时候需要使用这个来查找出来哪些数据是刚更新迭代的数据)。但是在这里我们可以创建两个用户
    • 用户1用来我们做增量同步时候的数据库
    • 用户2用来当出错的时候进行比对,查看错误,在导入的时候也要导入到用户2下的数据库中
  3. 在目的端的数据库中也将表导入进去

4.2 镜像同步工作

  1. 都是将所有的表数据都镜像同步过去,可以先写一个示例,镜像同步转换过程,然后点击“工具——>批量同步工具”里面选择数据库,选择镜像同步模板,选择转换命名规则。
  2. 然后需要按照《需求文档》中的各个表号来查询对应的镜像同步号进行重命名。
  3. 在作业的镜像同步汇总中将所有镜像同步转换拉出来然后使用蓝色线进行拉取,因为每个过程都是独立的不需要在意。
    • 在镜像同步作业汇总里面的箭头:绿色是成功了往下走,红色是失败了往下走,蓝色是执行完了往下走,黑色是有条件条件满足往下走。

pIu3sOfHQekP_Yuqbb_2C0JaMs6cXc2wZ_31zbl0rM.png

4.3 增量同步工作

  1. 首先在中间库中我们需要操作的影子表中选取表,也就是选取XXX_SHADOW_CDC表,因为我们需要使用这个增量影子表来对比我们上次我们增量同步的数据有哪些,etl会进行对比,并每次增量同步后进行更新。
  2. 后续进行操作,在操作的过程中需要注意配置的每个规则需要命名规范,规则写清楚,注意将同步的合法数据导入到我们之前提到的用户2中,若之后出现了同步的问题可以去该用户下的数据库中对比查找问题。

5 常用转换流程配置

首先导入影子表——配置列映射——修改需要修改的域数据格式——映射输出到目的表 总体完成增量转换后放如到作业汇总中进行SQL语句生成,将中间库的增量数据映射到目的库中 配置验证方法​​ ​​连接测试​​在DMETL设计器中右键数据源 → ​​测试连接​​,提示“成功”即配置有效。 ​​数据预览​​双击数据源 → 选择表 → ​​预览数据​​,确认字段映射正确。

hlN8sCeApSFnmyK6iPXUuao7mrLWOtqp5q8lJEDR6DI.png

评论
后发表回复

作者

文章

阅读量

获赞

扫一扫
联系客服