



回顾历史,企业对数据的利用可以归纳为以下4个阶段:统计查询、商业智能、大数据分析和数据中台。不同阶段的数据管理策略都不一样,如图3-1所示。下面,我们通过详细分析数据利用的发展历程,来了解企业数据战略是如何演进的。
图3-1 数据利用的4个阶段
早期的数据利用是对应用的数据进行统计查询,我们将这个时期称为1.0阶段。此时,数据并没有从业务系统中抽离出来。需要统计查询数据的用户也是业务系统用户的一部分。这个数据处理过程使用前文提及的OLTP,即联机事务处理。
OLTP负责业务系统的事务性处理,主要目的是通过在线流程完成特定的业务交易。在这个过程中数据是业务流程的副产品,部分关键数据会被存储起来。
举个例子,订单交易业务属于典型的OLTP类业务,这类业务对实时性要求比较高,并且会产生较高的并发访问量,最终所有交易完成的订单数据会被存储到订单数据库中。
这类业务有以下特点。
●系统需要处理大量相对简单的事务,通常是数据的增删改查。
●一般访问同一批数据的用户量比较多,系统需要保证数据的完整性,保证每一个事务的准确性。
●系统需要支持非常高速的处理,响应时间以毫秒为单位。
●系统需要提供快速检索和查询的功能。
●业务对服务的连续性要求比较高,系统需要保持全天候可用。
基于业务特点,应用OLTP的数据利用过程相应有以下几个特点。
●数据是软件功能的副产品,一般只有少量业务数据被存储。
●数据与应用存在于一个整体性架构中,数据按照应用的逻辑被存储,应用怎么写入的,查询的时候就在同样的表里用SQL检索。
●需要进行数据统计查询的一般是管理员或者业务系统本身的用户。
在1.0阶段,数据以查询统计的形式在一个具体的业务领域为特定的业务人员提供服务。当越来越多的业务利用计算机软件来支撑的时候,企业管理层需要了解更全面的业务信息,从而为决策提供依据,这就是2.0阶段的数据利用需求。我们称2.0阶段为商业智能阶段。
在这个阶段,数据处理的技术架构以关系型数据库和OLAP为主。
前文提到,OLAP是对大量历史数据进行多维分析的处理模式。与OLTP关注每一个事务的交易不同,OLAP更关注整体数据的变化趋势和分析结果。OLTP往往只需要访问和处理一个数据源,而OLAP则需要对多个系统的数据源进行汇聚分析。
OLAP的主要目的是从数据中获得业务的洞察,是数据挖掘、商业智能和复杂分析计算等过程的通用架构,常用于财务分析、制定预算和销售预测等业务需求。大部分OLAP架构的核心是数据立方体,它为用户提供多维度的数据快速查询、报告和分析功能。
举个例子,我们如果需要按地区分布来分析订单交易的历史数据,就要将所有的订单数据都抽取到一个数据库中,并且对这些数据按照地区维度进行汇聚和处理,这个过程对于实时性要求不高,但是对于数据的全面性、准确性有一定的要求。
基于上述介绍,我们可以从以下维度来理解OLTP和OLAP的区别,如表3-1所示。
表3-1 OLTP和OLAP的区别
在商业智能阶段,企业管理对数据分析的需求呈现稳定的增长,因此众多数据技术和产品应运而生。我们将该阶段的数据处理架构分为3个层次,如图3-2所示。
最前端是企业的数据应用层,对已经加工好的OLAP数据立方体提供的数据进行各种方式的利用,比如查询/报表、实时分析、数据挖掘。
在中间数据建模层,系统对从底部数据仓库抽取的数据集进行建模,形成面向不同业务主题的数据立方体,供前端快速利用。
系统将源系统数据抽取到这一层,形成数据集市,再汇总到数据仓库,构成企业级的统一数据集,给业务提供数据模型。在这个阶段,如何管理越来越多的数据成了一个专业事项,企业信息管理成了这个领域广受关注的数据管理方法。
图3-2 商业智能阶段数据处理的3个层次
在商业智能时代,主要的数据源是以ERP为代表的企业内部管理系统,这类系统关注内部研发、生产、人、财、物的管理。
随着移动互联网崛起,很多企业逐渐构建了自己的电商体系、会员体系,同时更加关注用户的体验,原来以用户订单和基础信息为主的用户数据已经不能满足企业的用户分析需求。于是,企业开始逐渐从用户的行为数据、社交媒体数据中挖掘用户信息,对用户进行更加深入的洞察。此外,对制造型企业、资产密集型企业来说,物联网技术的出现也让这些企业有了更好的手段,能够实时连接生产设备和固定资产,采集更多的设备信息、运维信息、状态信息等。这样的业务需求带来了半结构化、非结构化数据的大幅度增长。
除了数据量和数据种类的要求,企业对于数据也提出了更高的价值需求,而以云计算、大数据、物联网、移动互联网技术为主的数字化技术的出现,支撑了这些需求的实现。于是,一个新的大数据时代迎面而来。
在新时代,企业依托大数据平台,处理更大规模的数据。数据利用发展到3.0阶段,即大数据分析阶段。与商业智能阶段相比,大数据分析阶段有以下几个特点。
1)数据量、种类、产生速度大幅度提升。在大数据时代,企业内外部数据急速膨胀,数据量、数据种类、数据的产生速度大幅度提升,传统的针对结构化数据批量处理分析的方式已经无法满足企业如今的数据利用需求。企业需要更全面、更多维度、更实时的数据处理分析方式,来保证业务数据化后的结果尽可能与真实的业务保持一致,并且产生领先业务的洞察。
2)数据服务于企业全员。在商业智能时期,数据主要服务于企业决策层,从历史业务中获得统计型、分析型的业务信息,辅助决策。这个时期所抽取、使用、分析、呈现的数据基本上是历史数据,而不是实时数据。到了大数据时代,数据全面服务于企业的全局业务,从辅助决策延展到方方面面。移动互联网、物联网技术让数据能够直接实时触达业务的一线工作人员。而不同的用户角色,对数据以及数据产品形态有着不同的要求,这就需要企业建立、快速应对多元化需求的数据能力。
3)海量数据拉动多样化的数据技术栈。在这个时期,企业的应用系统数量飞速增加,外部数据呈指数级增长,海量、多样的数据推动了多样化的数据处理技术的发展,比如,开源框架Hadoop开创了分布式大数据处理技术的先河。
4)从批量处理变为实时处理。在商业智能时代,OLAP是数据处理技术的核心,批量处理、查询统计都是非实时的。到了大数据时代,企业对实时数据处理的需求进一步增强,数据分析的目的从通过历史报表进行粗略评价和预测变成根据用户的实时请求,结合OLAP分析得到的业务洞察来进行精准营销或者价格优化。
在大数据时代,数据对企业越来越重要,数据驱动型企业的概念也逐渐被越来越多的企业接受。
在前面3个阶段中,数据利用的主要形式还是商业智能,这个过程需要工作人员出报表给管理者,管理者查看后再进行决策,是由人工完成的。随着人工智能技术的迅速发展,面对高速动态变化、不确定性极高的市场环境,企业的数据利用进入了4.0阶段,即数据中台阶段。
该阶段以数据中台概念为核心,呈现了数据利用情况的3个变化趋势。
(1)从商业智能到人工智能
在前面的阶段中,企业的经营决策以人为主,数据只是以报表等形式辅助决策。而到了4.0阶段,人工智能技术发展,机器学习、深度学习等手段具有传统的统计型数据分析方法所不具备的业务洞察能力,这些手段以算法的形式呈现,企业进入了数据直接驱动业务的时代。人工智能算法将逐渐成为数据驱动的主要引擎,大量的历史数据、交易数据都成为训练和优化算法的材料,数据从辅助决策走向直接参与决策。
(2)从局部支撑到全局优化
受限于算力和数据存储、处理的能力,企业在前面3个阶段中的业务应用和数据存储是紧耦合的,无法做到企业级的全量数据的汇聚和融合,无法做到基于全量数据的分析和洞察,只能聚焦于关键业务领域,做特定主题的局部分析。而到了数据中台阶段,基于云计算、大数据、流计算等技术,企业具备了汇聚、分析全量数据,得出全面的业务洞察的能力,这有利于企业从全局进行业务优化。
(3)从业务数据化到数据业务化
在前面3个阶段中,企业的数据利用聚焦于业务数据化,也就是将业务流程设计成软件应用,通过软件应用采集、生成业务数据,再通过对业务数据的分析形成业务洞察,然后由业务人员参考业务洞察去制定业务策略。
到了数据中台阶段,企业对数据的利用走向了数据业务化,通过人工智能技术进行数据建模,形成可以指导业务优化的算法模型,然后采用API等方式,直接将算法模型部署、集成到业务应用中,驱动业务系统的运行。这种变化如图3-3所示。
在业务数据化的过程中,数据并不直接参与业务的执行,它是业务流程的产物;在数据业务化的过程中,数据是新的生产要素,直接参与业务。所以,在这两种不同的过程中,企业数据战略的关注点和目标是完全不一样的。
在业务数据化阶段,数据战略聚焦于数据管理,关注数据的质量、安全性,从资源角度来管理数据。此时行业中只有企业信息化战略,而很少提到数据战略,因为企业对数据的诉求主要是做好管理,实现标准化,保证数据安全,数据战略是服务于企业信息化战略的。
图3-3 从业务数据化到数据业务化
而在数据业务化阶段,企业要从业务的视角出发,从用户出发,从价值出发,才能制定出符合业务战略、能够产生价值的数据战略。更好地利用数据创造价值,已经成为业务的创新引擎,成了企业的重要业务战略目标,数据已经从资源管理领域走向价值创造领域。
数据战略规划的要求与数据管理完全不同,企业不能静态地管理数据资源,要随着市场和用户需求的变化,动态、高响应地分配、调度数据资产,让其产生直接的业务价值。目前很多企业管理数据的方式还是以企业信息管理为主。