数字化转型已经成为大多数企业所面对的巨大发展变革机会。越来越多的企业开始尝试通过数字化转型来获得新的技术和能力,并在所在行业中取得竞争优势。企业要想做好数字化转型工作,就要理解数字化的概念和方法,掌握数字化的关键工具,除此以外,更重要的是读懂数据和使用数据。
数字化转型的核心是数据,关注的是如何使用数据创造业务价值。一般关于数字化转型的讨论大多数是从业务的视角展开,围绕和数据相关的管理方法及基于数据要素的商业模型。本书不仅关注数字化转型在业务实践的一面,同时也关注其科学属性的一面。我们想要探讨的是数据在数字化转型中到底发挥了什么作用,具体是如何一步步地释放信息价值,并对传统的业务模式进行重塑。
数据的作用是传递信息,信息帮助人们进行决策,而管理的本质则是关于决策的活动,因此讨论企业的管理问题,实际上就是讨论如何使用数据的问题。在数字化转型中,企业的全部灵感都要围绕数据展开,也只有通过对数据的管理、加工、分析、交互、共享、反馈才能得以实现。
数据科学是关于数据的综合学科,这里面涉及很多技术方面的内容,例如公式、算法、模型、软件架构,以及核心的数字技术产品。在畅想和规划数字化转型的业务实践路径的同时,我们不应忽略的事实是,转型工作最终还是要回归到对数据的应用上。对数据理解的深度最终会决定我们数字化转型工作成绩的高度。
从数据科学的角度介绍数字化转型是一个全新的思路,在数字化转型的基本概念和总体图景基础之上,帮助进行数字化变革的管理者们能够“自底向上”逐步看清数字技术与业务创新的本质关系。技术决定了业务的能力边界,只要读懂数据科学技术,就能够深刻理解数据在所面对的业务场景下究竟能做什么,同时也帮助我们看清在数字技术的驱动下,前方业务发展的道路应该走向何方。
本书是笔者基于十多年在数据科学方面的学习和工作经验总结整理而成的,其中,涵盖了在上海交通大学博士就读期间对数据驱动的新型管理方法的思考见解,也融合了在金融行业国有企业统筹数据管理与创新工作的产业实践经验,同时也体现了在中国科学院自动化研究所从事大数据科研工作期间的前沿技术积累。
在形成本书内容时,参考了大量数据科学和数字技术方面的高质量论文和书籍,从中筛选出了与数字化转型密切相关的技术知识点,将其按照数字化应用落地的角度重新进行了筛选和组织,最终形成了独有的知识体系脉络。本书涵盖的知识内容十分丰富,呈现方式很压缩,但是在文字表述上尽可能地做到直接、简洁、清晰。书中介绍的所有知识内容最终都指向一个目的,让读者能够看清数字化的科学本质,掌握从宝贵数据资源中构建出成功数字化案例的技术能力。
本书共分8章,分布在目标、原理、技术、业务4个主要层级板块。依据这4个层级的递进关系,完成了从数据科学到数字经济的总体价值实现链路转换,如下图所示。
第1章介绍了数字经济的基本定义,以及与其密切相关的数字化转型和数字化创新的概念内涵,同时明确提到了数字化的最终目的是通过连接、决策和智能等主要途径为经济活动注入新的秩序。
在原理层级板块,重点关注和数字化相关的底层数据科学知识框架,把数据看作基础的研究对象进行剖析,这一层对应的是本书第2章内容。
第2章首先介绍了数据的核心价值本源,指出数据的价值包括事实的价值和知识的价值两个层面的内涵。之后,提出决定数据价值水平的两个重要的数据特征,分别是数据的维度和数据的规模。第2章还介绍了数据科学学科本身的专业领域范畴,包括数据采集与管理、数据存储与计算、数据分析与应用3个方面的知识内容。
数据技术是数据原理的具体能力表现形式。在技术层级板块,重点关注基于数据科学原理的数字技术方案的具体实现,这一层对应的是本书第3~6章内容。
第3章主要介绍如何从业务环境中获取数据,其中提到了数据感知的概念。数据感知是实现帮助企业从业务活动中捕捉关键信息,并将信息映射到数字世界的关键技术过程。数据感知包括硬感知和软感知,分别对应从物理世界和虚拟世界进行数据采集。在数据感知的基础上,还需要对数据进行进一步处理才能转化成可用的形式,因此第3章也重点介绍了数据的信息提取和信息检索两个主要技术任务。
第4章主要介绍如何从数据中寻找规律实现信息价值的启发及新业务知识的获取。具体包括对数据进行客观的统计描述分析,挖掘数据的重要统计特征及其背后的关键业务信息。此外,本章还介绍了主要的规则挖掘技术方法,即如何从数据中提取知识规则并加以业务应用。本章还对数据可视化进行了讨论,介绍了很多重要的数据图形表现形式及其所适用的具体业务分析场景。
第5章主要介绍如何从数据中获得智能的方法,目的是从海量数据资源中学习到能够代替人进行智能决策的数据模型。首先介绍了面向有监督数据集的传统机器学习方法,涉及回归分析、支持向量机、概率图、决策树等主要模型;其次介绍了近年来在大数据业务场景下比较流行的深度学习技术,包括深度前馈神经网络、循环神经网络、自编码器等经典的神经网络结构;最后讨论了其他常见的智能数据建模方法,如强化学习、迁移学习、元学习、联邦学习等。
第6章主要介绍在数字化转型中企业的IT建设工作,讨论在具体的技术落地层面所涉及的主要软件系统及所依赖的底层技术框架。本章首先介绍了支撑企业级数据资源管理、共享和应用的“中台”概念,以及相关的技术应用系统;其次介绍了为企业数字化提供基础服务能力保障的大数据技术栈,并从大数据存储、大数据收集、大数据计算、大数据集群管理等方面进行了详细解读;最后梳理了企业获取数字技术能力的主要实施途径,其中包括软件服务化的总体技术架构趋势,以及云计算的经典服务模型与部署模型。
技术的目的是支撑业务活动,帮助企业完成业务的转型和组织的转型。在业务层级板块,重点关注数据管理和数字化产业实践两方面的内容,分别对应本书的第7章和第8章。
第7章主要介绍企业的数据管理活动。首先介绍了数据管理活动的总体内容框架,特别是数据治理的概念和数据生命周期管理的主要工作范畴;其次介绍了如何建立企业的数据体系,包括对数据架构的设计思路和数据建模的主要方法;最后针对企业中主要的数据类型及相应的管理方法进行了详细说明,包括常规数据、非结构化数据、主数据、参考数据,以及元数据等。
第8章主要介绍企业数字化产业实践中的典型问题和应用案例,其中分别介绍了大型和中小型非数字原生企业在转型中的困难和常见的解决方法,并从组织和人才的层面描述了数字化企业的主要特点。最后还专门讨论了餐饮、家居、金融、制造业、能源、农业、城市治理、医疗卫生等重要行业领域的产业实践应用成果。
在业务层级板块的基础上,最终是要实现数字经济的上层目标,这也是本书在第1章最开始讨论的内容。
本书内容适用于广大对数据科学感兴趣的技术从业人员,帮助技术人员更好地突破“懂技术,但不落地”的痛点,让读者在掌握核心大数据技术的同时,找准数字产业的应用方向,通过数字化创新的业务场景实现技术价值发挥。本书同时也适用于所有致力于在数字化转型中有更多技术维度思考的管理人员和业务专家,帮助其深入理解数据科学技术的前沿动态,提升自身数据素质和数据产品规划能力,从而更有效地组织技术人员开展数字化项目的实施推进。
作者
2023年6月