应用系统之间的数据交互往往以API(或者其他基于TCP协议)的方式进行交互,而API的背后则封装了不同应用系统的业务逻辑。这种数据交互往往数据量传输较少(MB级别)且对于实时性具有一定的要求(分钟级别)。但是数据平台(中心)中传统的API无法满足这种要求,主要原因有以下几点:一是平台处理的业务逻辑复杂,例如需要将几十个业务系统的原始数据清洗聚合之后计算业务指标,这对于应用系统来说难度较大且没有扩展性;二是数据平台中ETL作业数据量较大,且存在复杂的数据依赖关系;三是数据中心对于下游应用的支撑是多样的且数据量相对API较大。所以需要一个数据调度系统来进行数据流的统一管理。
调度系统不仅负责批量作业的执行,而且是一个统一的批量作业管理平台。它通过作业之间的依赖关系以及支持不同类型的作业类型构建了企业数据依赖网,同时也决定了企业业务之间的先后顺序,所以保证调度系统的稳定性以及构建准确的作业之间的依赖关系也是调度系统应用的一大难题。
Tips 调度系统中作业的依赖关系也是元数据的重要数据来源。