数据开发与整合是将不同来源的数据,经过清洗转换后变为统一格式存储的过程。该场景的需求主要存在于数据仓库和数据中心项目的建设和运营过程中。这类项目的需求主要有以下特点:
- 数据量大,数据种类丰富,来源多样;
- 数据中心一般要为领导以及其它应用提供数据服务,因此对数据质量要求高,而不同来源的数据质量参差不齐,存在数据不一致,数据冲突、数据重复等问题;
- 数据持续集成,不同类型的数据集成的周期可能不同,需要功能强大的作业调度与监控功能;
DMETL 通过以下的特性可以很好的解决数据仓库与数据中心建设和运营期间出现的问题。
- 多节点共享元数据库,可以统一监控管理各个执行器节点。
- 支持远程启停升级,提高项目实施部署运维效率。
- 完善的容错机制,支持断点续传、自动重连和错误报警保证了数据处理过程和结果的安全性与可靠性。
- 全面的数据源支持,支持各种主流数库,还支持 TXT、CSV、Excel、XML 文件、kafka,hdfs 文件,消息服务器、LDAP 服务器、WebService 等数据的抽取和装载。
- 可以设置不同的大数据执行器,其中包含 yarn 执行器和 flink 执行器,分别支持批处理和批流一体的处理方式。用户直接通过图形化的操作,即可部署流程到 hadoop 和 flink 框架上,零代码的操作,降低了操作门槛,以达到高效复杂和多样性的数据开发。
- DMETL 提供了丰富可视化的数据清洗转换和数据质量规则,可以解决数据冲突、数据不一致和数据重复等数据质量相关问题。
- DMETL 提供多种数据统计方式,便于用户及时了解数据接受和发送情况。