数据工厂的规划建设宜采用“业务导向+技术驱动+数据支撑”的方式,基于技术可行性的客观评价,考虑全生命周期和后续迭代进行规划建设,具体步骤可参考企业数据工厂规划建设的工作流程和方法“STEP-DO”(from Strategy-Topic-Evaluation-Plan to Deploy-Operation,从战略—选题—评估与设计到实施与运维),如图2-3所示。首先,对工业企业进行顶层数据战略理解,形成统一数据战略;其次,以业务为导向,采用迭代演进的方式实现数字化战略的落地。在每一次落地迭代过程中,从识别和分析业务主题和业务场景出发,历经评估可行性、设计建设方案环节,建设方案要保持前瞻性并考虑具备演进的扩展性,在经过系统实施后,数据工厂投产运行,并持续有效管控与运维。每一次迭代的经验和从业务角度评估的正反面效果都将作为后续迭代的参考,并为新一轮迭代建设提供经验输入。
图2-3 企业数据工厂规划建设的工作流程和方法STEP-DO
数据智能化是工业企业转型升级高质量发展的一项重要抓手。国家从宏观层面重申数字化转型升级的国家性和紧迫性,也在积极引导工业企业深入实施大数据战略,以数据智能化推动企业高质量发展。工业大数据正在从业务数字化阶段向数据智能化阶段迈进。工业企业结合自身业务领域,统一业务愿景,制定数字化战略是每个企业面对时代挑战的主动回应,新时代也是数字化智能化带给企业经济效益提升的良机。
数据工厂的起始是企业高层达成战略理解,形成战略共识。数据智能化的一个重点是数据思维和数据文化。数据思维增加了一种从数据的视角思考问题的方式;数据文化把数据和业务当成一体来看,而不仅将数据当作一个支持工具。基于企业数据战略理解,通过业务愿景导向与业务场景探索,识别数字化业务主题,制定企业数字化产品规划,推导出企业数据工厂的架构,并培养逐渐深入的数据思维和数据文化,形成和逐渐演进企业数字化产品和服务集。
数据产品规划建议“轻规划、重场景、迭代演进”。在业务主题选择的过程中,要结合企业自身特点,从业务价值出发进行场景探索;重点是以场景为锚点,基于场景进行比较快速和轻量的主题选定和规划。同时,要理解市场的动态性,通过利用数字化的敏捷性,在保持大的数据战略原则的基础上,让数据产品随着效益的显现逐渐深化。在遇到业务价值瓶颈时及时调整,进行小周期的迭代,并基于反馈效果向更具有积极业务价值的方向演进。
如图2-4所示为“业务导向+技术驱动+数据支撑”的“轻规划、重场景、迭代演进”式建设示意,图中体现了上述规划思想。每一次迭代都以业务场景价值为导向,沿着这个场景纵向切分,在企业数据全集中仅定位相关的一个或多个数据子集,并根据数据接入汇聚存储处理等需求及数据分析计算需求落实支撑技术,从而形成建设方案,进而实施与运行。从相对小的数据场景落地,便于快速验证和呈现价值,也便于在数据智能化转型大的进程中逐步实践、逐步积累经验。相较于先从最底层(即建设企业全量数据大而全的管理分析技术支撑系统)再逐层向上的建设方式,能更早地验证系统价值,并逐步地积累经验,这在企业数据智能化转型升级的较长进程中是至关重要的,可以帮助企业自身数字化能力的培养和成长。
图2-4 “业务导向+技术驱动+数据支撑”的“轻规划、重场景、迭代演进”式建设示意
业务价值是数据工厂建设的导引,数据工厂始于业务价值。在进行业务主题选定的过程中,涉及一系列分析与识别工作,包括分析业务痛点和需求归纳,总结描述业务问题,筛选识别业务场景,明确将要达成的目标和场景业务价值等。
对已有的业务主题应予以充分参考,包括在前续数据工厂迭代建设中积累的业务主题与场景、选取经验等方面。高优先级、高价值及有一定相关经验、可行性较高的业务主题和场景往往适宜给予专注。
可行性评估是对选定业务主题的目标能否通过建设数据工厂所达成的一项评估。其主要包括分析与应用场景评估、企业数据情况评估与确认、企业IT架构评估3个方面。
(1)分析与应用场景评估。以业务主题场景为输入,对其进行充分理解,细化与分解业务场景,包括场景对数据的需求,对数据处理、数据分析、分析模型计算等的需求,从数据、分析模型的层面对业务场景进行理解和评估。
● 在数据的需求方面,包括数据的业务类型、数据的质量要求、数据的体量要求等。
● 在数据分析的需求方面,包括数据处理的方法需求、分析模型计算模式、范式、特性等需求等。在评估过程中,可以提取样例数据,对样例数据进行探索与分析,进行分析模型试验等。
(2)企业数据情况评估与确认。根据分析与应用场景的数据需求,在企业数据全规模集合中评估与需求相关数据的情况,体现在存量数据和增量数据两个方面。
● 对于存量数据,定位和评估数据的完备程度、数据的技术类型、数据的质量情况、数据的体量情况等,另外,获得数据所在系统的情况,例如,系统的访问接口、访问性能、系统当前负载情况、网络与传输、安全设置等,并将实际情况与需求进行对比,得出满足程度与差距。
● 在增量数据方面,评估所需数据的未来增量情况及数据所在系统的情况,得出满足度与差距。这些差距可以为接下来的建设方案提供输入与指导。
(3)企业IT架构评估。
● 根据对分析与应用场景的分解、细化和理解,勾勒与设计业务架构并进行评估,包括施动者与角色、驱动力、目的与目标、主要功能分解、用例等。
● 根据分析与应用场景的数据分析及计算需求等方面,分析所需的计算负载的特点,包括分析模型计算模式、计算范式、数据处理特性等。
● 基于业务架构及场景所需的计算负载的特点等情况,结合数据需求所涉及的数据工厂外部系统的访问接口、访问性能、网络与传输、安全设置等情况,进行解决方案架构初步设计,包括含主要组成部分的自身架构、与数据工厂外部系统的集成架构、风险与限制等,并进行可行性评估。
● 对系统成本、分析模型与应用建设成本进行初步预估,包括与外部系统集成的开发及技术服务成本、系统自身的软硬件成本、数据接入验证实施成本、分析模型研发与部署实施成本、应用开发成本等。
● 数据工厂的运维运营模式预估。数据工厂运营是一类新型的企业运营活动,为便于开展和高效实现企业数据智能化转型,企业往往需要在组织架构层面予以支持,包括数据工厂运营的人员架构考虑。另外,对数据工厂运维模式进行预估,例如,本企业以管理为主、以外部运维技术服务为辅助等方式。
数据工厂的建设方案主要包括技术架构设计、硬件容量规划、系统运维及安全策略、前瞻性设计考虑和实施计划五大方面。
(1)技术架构设计。技术架构设计是从技术角度,对数据工厂的系统组成和工作流程等关键信息的设计决策的勾勒、描述和定义,其主要内容包括价值线架构设计、创新线架构设计等。
在价值线架构设计中要考虑支撑从数据中提取价值的一系列数据处理与数据分析工具和系统,涵盖数据接入汇聚、数据存储、数据查询、数据集成、数据处理、数据分析、数据可视化、应用交互设计等能力,这些构成了价值线架构组件的主体。价值线涉及以给定的数据处理和数据分析编排以数据质量可控的方式从数据中提取价值,包括数据的清洗、转换、分析模型处理、数据测试,以及数据可视化等活动。
在创新线架构设计中要考虑支撑数据探索、分析模型实验及应用创新等过程的工具、系统和构件库,包括工业数据分析建模环境、分析算子库、分析案例库、低代码开发环境、数据应用App模板库等,这些构成了创新线架构组件的主体。创新线涉及试验新的数据处理、分析和应用想法,研发具有业务价值的新的(或改进已有的)数据分析模型、交互应用(即数据产品)等活动。
(2)硬件容量规划。承载数据工厂软件系统的硬件或云基础设施及相关的容量规划方案,包括明确集群规模、角色信息等,这将在2.3节中展开。
(3)系统运维及安全策略。数据工厂建设方案中还包括数据工厂建成投产后的系统使用与运维方案、数据权限管控方案,其中包含系统使用指南、运维最佳实践、数据访问权限控制指南、数据管控实践等。
(4)前瞻性设计考虑。数据工厂的落地实施过程是通过迭代演进的方式进行的,而非一蹴而就。在每次迭代中,建设方案要保持前瞻性并考虑具备演进的扩展性。一方面,对企业数据的扩充要具备兼容性。例如,考虑企业上游数据源情况,为未来根据业务场景接入汇聚更多数据源时力求保持良好的向前兼容性。另一方面,对系统自身架构和组件的升级和扩充,计算资源、计算模式等扩充时,能够良好地扩展,并让整体架构保持演进。
(5)实施计划。以建设方案中的技术架构、容量规划、运维安全策略为基础,制订数据工厂系统实施计划,用于指导整体的实施过程。
系统实施以环境搭建与系统部署为主要内容,以交付过程管理为手段。内容包括数据工厂系统安装部署、试运行、系统测试报告、系统配置状态报告等。通过交付过程管理手段,做好几方面的管理,包括交付计划、交付物清单、交付里程碑清单等。
数据工厂管控与运维通过对生产过程进行监测和控制,达到提升和保障数据产品生产效率、产品质量、降低生产成本等目的。
(1)数据质量管控。数据工厂投产运行后,数据质量是一项重要管控内容。对生产环节和步骤(即加工工序)进行科学的过程控制,通过层层把关,减少不合格品产生,从而提高产品质量,减少无谓的数据处理消耗。首先,进行质量指标管理,定义和明确质量指标;其次,对加工生产过程的诸多环节进行生产质量监测和评价;最后,对质量问题及时告警和预警,进行有效的质量监控,提高数据产品的整体质量。
(2)系统运行维护。包括环境情况监控、产线运行监控、生产性能监控等。基于生产行为追踪,对数据工厂中的生产过程及数据处理过程进行追踪、监测和管理,从而对生产过程的情况进行掌控。对数据产品生产性能进行评估、监测、控制与调优,从而高效生产、提高产量,同时降低资源消耗、降低成本。
(3)异常响应预案,包括对异常事件的响应机制与处理方法。
(4)灾备和恢复方案,包括应对灾难性故障的预防性措施和应对方案。
综上所述,数据工厂规划建设以业务价值为导向,以数据为原料支撑,以技术和实践经验方法为驱动。数据工厂的建设需求围绕业务价值,功能设计以对应的业务场景需求为根源。从分析和应用场景出发进行企业数据、IT架构两方面的可行性评估。建设方案在充分考虑当前功能设计的基础上进行一定的抽象化、可复用化和前瞻性设计,保持在满足当前业务场景需求的同时具有一定的可扩展和可演进能力。在系统实施投产后的管控运维阶段,要考虑企业的人员架构和运维模式,做好数据质量管控,确保数据产品的整体质量。整体建设以迭代与演进的方式进行,每次迭代都是一个以业务场景为起点,通过建设系统能力、生产数据产品,最终产出业务价值的完整过程。