购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 达梦数据交换平台简介

达梦数据交换平台(DMETL)软件是一个具备数据抽取(Extract)、清洗转换(Transform)和装载(Load)功能的通用数据处理平台。DMETL V4.0在传统ETL工具的基础上,集成了数据同步、数据交换和数据整合等功能,能够为基于数据交换的应用和日常的数据清洗提供完整的支持。

DMETL V4.0可以接入各种数据库、消息服务器、文本文件、XML、Excel文件、Web Service、LDAP等常见数据源,并提供了拖曳式的可视化流程设计器,可以大幅度提高工作效率。

1.3.1 组成及功能

达梦数据交换平台遵循《GB/T 30883—2014信息技术 数据集成中间件标准》研制开发 。DMETL由运行时服务、开发工具、监控管理工具组成。运行时服务由数据接入层、数据表示与处理层组成,同时运行时服务对外提供视图访问接口、服务访问接口和监控管理接口三类应用接口,供数据交换应用调用。开发工具为开发者提供用于支持数据交换流程的开发,完成数据交换流程及运行时服务相关功能的设计、配置、部署、调试等功能。监控管理工具为达梦数据交换平台管理员提供运行维护的监控管理功能。达梦数据交换平台技术架构如图1-8所示。

图1-8 达梦数据交换平台技术架构

达梦数据交换平台的组成说明如下。

1. 数据接入层

数据接入层为数据交换平台提供接入各种数据系统的功能。其中:

(1)访问模式用于描述不同数据系统接入的访问模式,包括同步或异步、实时或非实时、读或写数据系统等访问模式。

(2)数据格式是对要接入数据进行的格式化定义,通过格式化定义,形成标准的数据表示,一般包括数据库元数据、XML文件的格式定义(XSD文件)、格式化文件等。

(3)数据访问协议是接入数据系统使用的通信访问协议,通信访问协议一般包括关系型数据库的JDBC访问协议、消息中间件的JMS访问协议、邮件系统的SMTP/POP3访问协议等。

2. 数据表示与处理层

数据表示与处理层为数据交换平台提供多种规范的数据表示方式、元数据管理功能,以及数据交换过程中一些必要的数据处理功能。其中:

(1)数据表示方式主要是指将数据系统接入的数据解析成规范化的数据表示,以便进行数据加工;将接入数据按照某种标准方式(如XSD、SDO等国际通行规范)进行规范表示。

(2)元数据管理实现对数据系统、数据处理过程及对外接口相关元数据的管理能力,包括对元数据的定义、更新、分类、查询等功能。

(3)数据格式转换用于对数据类型、数据内容等进行转换,包括同一类型数据格式之间的转换,如XML格式之间的XSLT转换;不同类型数据格式之间的转换,如XML格式与SDO格式之间的序列化/反序列化转换。

(4)数据加工用于对数据内容进行过滤、清洗等加工处理。通常包括数据聚合、数据合并、数据过滤、数据清洗、数据丰富、数据去重等。

(5)数据传输用于分布式环境下的数据传送。数据传输包括同步或异步传输模式。例如,在同步传输模式中,数据交换平台可采用远程方法调用(Remote Method Invocation,RMI)进行数据传输;在异步传输模式中,数据交换平台可采用消息中间件进行数据传输。

(6)数据流程处理用于按照顺序、分发、汇聚、路由等数据流程模式进行数据流转。顺序流程是指数据处理的各个步骤按照顺序进行。分发流程是指在接入端接收到数据后,根据数据的特征(数据来源、数据内容、数据类型等)进行不同目的地的数据流转,数据能够只流转到一个目的地,也能够流转到多个目的地或流转到所有目的地。汇聚流程是指在接入端接收到数据后,数据同时流转到后面并列的所有处理步骤,当所有并列步骤处理完成后进行汇聚,然后继续向下流转。路由流程是指在接入端接收数据后,根据预先建立的路由规则,计算目的地,动态进行数据流转。

(7)数据缓存管理按一定规则将数据存储起来以避免数据重复访问和传输,实现对频繁请求数据的快速访问。通过减少对数据系统的访问次数,降低数据系统的负担,提高数据系统的服务能力,提高查询效率。

(8)事务控制是指在数据处理的各个步骤中,数据交换平台在一定程度上保证全局数据的完整性和一致性的能力。事务控制包括协调分布式数据查询、更新、删除和添加活动;当数据处理的一个或多个步骤出现错误时,终止当前操作并返回出错提示;当数据处理的一个或多个步骤出现致命错误造成全局数据不一致时,自动为其他步骤做数据补偿,或者为其他步骤提供数据补偿建议。

(9)数据映射管理定义多个接入数据系统之间的关联关系,包括定义各数据系统原始字段到数据视图展现数据的映射规则。

3. 应用接口

应用接口是数据交换平台运行时对外提供的供应用层或管理监控工具访问的接口。视图访问接口以数据视图形式为应用层提供数据访问的接口,可根据应用层条件及时获取相应数据;服务访问接口是将数据发布成数据服务,并为应用层提供数据访问的接口,可根据应用层条件及时获取相应数据;监控管理接口为应用层或监控管理工具提供对运行时服务进行监控与管理的接口。

4. 开发工具

开发工具包括设计工具、配置工具、部署工具、调试工具等。设计工具用于根据业务需求对数据交换流程进行建模并生成具有特定格式的流程文件;配置工具用于对数据交换流程生命周期过程中的各项活动(如数据访问模式、数据映射规则、数据处理过程等)进行配置;部署工具用于将设计开发的所有元素(如元数据、流程定义等)进行打包,并部署到中间件服务器上;调试工具通过支持诸如单步执行、断点执行等控制方式追踪数据交换流程运行时的状态。

5. 监控管理工具

监控管理工具让数据交换平台具有对运行时服务进行状态监控、跟踪审计、日志管理、异常告警、访问控制等监控管理功能。

状态监控用于对数据交换流程实例进行监控与管理,包括对数据交换流程实例进行安装、卸载、启动、停止等管理操作,以及对数据交换流程实例进行状态监控操作。

跟踪审计用于对流程的运行情况进行跟踪审计,并展示指定时间段内参与集成的数据交换信息。跟踪审计的交换信息包括数据交换时间段、数据交换总量、数据交换吞吐量等。

日志管理用于追踪并记录数据交换平台的运行过程,包括系统运行情况、用户登录情况、管理操作情况、数据处理情况等。日志管理可以对日志级别进行灵活调整,包括警告、信息、错误等的级别。

异常告警针对网络断开、数据系统无法访问等异常情况进行告警,并将异常信息进行记录。异常告警包括告警信息分类、级别定义、信息订阅、通知方式定义等功能。其中,告警级别包括警告、信息、错误等级别;告警通知方式至少提供一种通知方式,一般为邮件通知方式。

访问控制用于限制用户对数据交换平台运行时服务的访问,具有用户身份鉴别、访问权限控制等功能。

1.3.2 技术架构

DMETL V4.0架构如图1-9所示。DMETL V4.0分为客户端和服务器端两部分。其中,客户端基于Eclipse RCP平台开发,各项功能都通过标准的Eclipse插件实现,可以在不重新安装的情况下动态地加载功能。

图1-9 DMETL V4.0架构

服务器采用OSGI的体系结构,每个功能都是一个OSGI包,其中在执行引擎上定义了一些扩展点,如转换规则扩展点、流程节点扩展点、数据质量检查规则扩展点。系统内置的组件和用户扩展的组件都统一通过扩展点的方式实现,流程执行时通过查询系统扩展信息来加载相应的类并执行。服务器对数据的访问和处理都通过数据处理层接口实现。数据处理层负责屏蔽不同数据源的差异,便于对新数据源进行扩展支持。

1.3.3 特点

DMETL V4.0的主要特点如下。

(1)高性能:

DMETL V4.0核心执行引擎采用多线程机制和流水线架构,处理过程可以异步并发进行;

内建通用数据分区处理机制,充分发挥多CPU系统性能;

支持单表数据的并行装载;

支持文件并行分段解析;

支持各种数据库专有的高性能装载接口(如BCP批量装载等);

具有高效的表达式解析引擎;

内建高性能缓存管理模块。

(2)可靠性:

内置关系型数据库用于存储用户配置信息,保证用户配置信息不丢失;

支持数据磁盘缓存,数据无法写入目的数据源时,可换缓存到磁盘中;

支持连接自动重连;

支持增量抽取断点续传。

(3)易用性:

提供了图形化的管理设计工具,可进行本地和远程联机管理,通过可拖拽的图形化流程设计器,用户可以快速设计数据处理流程;

内置丰富的数据清洗组件和规则,支持数据实时预览和流程调试;

支持任意字符编码转换、简体中文与繁体中文转换、文字与拼音转换、全角与半角转换;

提供基于模板的批量转换数据同步向导,根据数据同步方案快速创建数据同步流程;

提供统一监控视图,可以方便地监控后台流程的执行状态、统计信息。

(4)扩展性:

DMETL V4.0采用基于OSGI的标准的、模块化的架构,各个功能组件可以快速方便地进行扩展,如数据源、转换组件、作业组件、数据清洗规则;

DMETL V4.0提供了丰富的应用编程接口(API),第三方应用可以通过这些接口与DMETL V4.0进行交互,如动态创建流程、获取流程状态和统计信息;

DMETL V4.0充分考虑了业务数据的复杂性,在提供了丰富的标准数据转换组件的基础上,还允许用户通过自定义函数编写转换规则,快速满足特殊的业务需求;

DMETL V4.0可以独立运行,也可以内嵌到第三方应用中执行。 +BpeJJiimqAwe1h6mpwxsOwG+3yMcX6lIcKjV2COS2Das0v5QhM9/mgZOZQsmwD9

点击中间区域
呼出菜单
上一章
目录
下一章
×