大数据(见图2-4)的蓬勃发展与全球信息化的快速推进有着密不可分的关系。从20世纪90年代末开始,金融业、电信业、零售业等率先实现核心交易数据电子化,随着信息技术的发展,越来越多的企业开始推进制造、财务等业务领域的信息化。随着数据的不断积累,企业开始思考对数据的高效使用,让数据产生更大的价值,于是兴起了数据挖掘等技术。所谓的数据挖掘,是指从大量数据中提炼隐含的、先前未知的有潜在价值的信息的过程。
图2-4 大数据图例
20世纪90年代,沃尔玛超市的管理人员通过数据挖掘技术分析销售数据时,发现了一个令人费解的现象:在某些特定的情况下,“啤酒”与“纸尿裤”这两件看上去毫无关系的商品会经常出现在同一个消费者的购物篮中,这种独特的销售现象引起了管理人员的注意。
经过后续调查,管理人员发现,这种现象大多出现在年轻的父亲身上。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购物。年轻的父亲在购买纸尿裤的同时,往往会顺便为自己购买啤酒,从而使啤酒与纸尿裤这两件看上去毫不相干的商品经常会出现在同一个消费者的购物篮中。沃尔玛发现了这一独特的现象后,开始在卖场尝试将啤酒与纸尿裤摆放在同一区域,让年轻的父亲可以同时看到这两件商品,快速地完成购物;沃尔玛超市因为这一便利消费者购物的安排,获得了更多的销售收入。
1993年,美国学者艾格拉沃(Agrawal)提出通过分析购物篮中的商品集合,找出商品之间关联关系的算法,并根据商品之间的关系,分析出客户的购买习惯。艾格拉沃从数学及计算机算法角度,提出了商品关联关系的计算方法——A prior算法。沃尔玛从20世纪90年代尝试将A prior算法引入POS机的数据分析中,并获得了成功。
2010年以后,各式各样的数据积累越来越多,包括客户的浏览数据等日志型数据在企业中快速累积。随着移动互联网的兴起,声音/图片/视频等非结构化数据也越来越多。移动互联、社交网络、电子商务、物联网等技术及商业场景的发展与成熟,使得各种数据爆炸性增长。根据统计网站Statista.com的预测,到2025年全球数据量的总和将上升到51ZB(见图2-5)。
图2-5 全球数据量
资料来源:Statista.com。
随着数据的快速积累,以及对数据处理的时效要求越来越高,对数据的处理能力与时效逐渐成为企业应用数据的瓶颈。在2000年左右,企业的数据通常存储在如Teradata的大型单机里,价格高昂。随着数据的快速积累,数据仓库的扩容只能依靠增加存储硬盘以及CPU,扩容成本过高,只有银行等大型企业才能进行这种类型的投入,极大地限制了大数据的应用与普及。
2006年,谷歌公布两项研究成果《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心技术包括分布式文件系统GFS、分布式计算系统框架MapReduce、分布式锁Chubby,及分布式数据库BigTable。分布式计算的理念是将计算从高成本的单机上分散到大量的低成本计算机服务器上,进行分散式存储与计算后再对结果进行整合。这使得传统指数级的数据仓库扩容成本降低至线性增长,也使得对海量数据的存储与计算成为可能。
受谷歌的研究成果启发,2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即HDFS的前身。2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。到2006年,Hadoop从Nutch中分离并成为开源的独立项目。Hadoop的开源推动了大数据产业的蓬勃发展,带来了一场深刻的技术革命(见图2-6)。
此后的数年,大数据相关技术不断发展,开源的做法让大数据生态逐渐形成,且有更多的技术持续不断地进入这个生态圈。由于MapReduce编程烦琐,Facebook贡献了Hive,其类SQL语法为数据分析、数据挖掘等应用场景提供了巨大帮助。第一个运营Hadoop的商业化公司Cloudera在2008年成立。
由于内存硬件已经突破成本限制,2014年Spark逐渐替代MapReduce,受到业界追捧。Spark在内存运行程序上的运算速度比MapReduce快100倍,且运行方式更加适合机器学习任务。Spark 2009年诞生于UC Berkeley AMPLab,2010年开源,并于2013年贡献到Apache基金会。
图2-6 Hadoop带来的大数据革命:服务器集群
资料来源:AI生成。
Spark和MapReduce都专注于离线计算,通常计算时间为几十分钟甚至更长时间,为批式处理程序。由于实时计算的需求越来越大,新时代的流式计算引擎开始出现,包括Storm、Flink、Spark Streaming。
2010年2月,肯尼斯·库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。2012年,牛津大学教授维克托·迈尔·舍恩伯格的著作《大数据时代》开始在全球风靡,大数据技术逐渐被大众所熟悉和使用。大数据存储和处理技术的发展同时带动了数据分析、机器学习产业的蓬勃发展,并促使更多新兴产业不断涌现。大数据技术作为基石,支撑了人工智能等新兴领域的蓬勃发展。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,用户可以轻松地在Hadoop上开发和运行处理海量数据。其底层能够以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop运行效率极高,因为它能以并行的方式工作,通过并行处理加快处理速度。此外,由于Hadoop是开源项目,任何程序员都可以免费使用且可改进功能。Hadoop没有传统数据仓库那样高昂的软件授权成本,因此Hadoop一经推出就大受欢迎,并引领了大数据领域的发展潮流。
Hadoop的核心组件是HDFS(Hadoop Distributed File System)。HDFS具有高容错性特点,且适合部署在低廉的(low-cost)硬件上;HDFS提供高吞吐量(high throughput)的应用程序的数据访问,适合那些有超大数据集的应用程序,而支持海量平行计算的技术就是MapReduce。HDFS为海量的数据提供了高效存储能力,而MapReduce为海量的数据提供了高效计算能力。
Hadoop的核心优点主要体现在以下几个方面。
高扩容能力(Scalable)。Hadoop是在计算机集群间分配数据并完成计算任务,这些集群可方便地扩展到数以千计的节点。
成本低(Economical)。Hadoop通过普通廉价计算器服务器组成服务器集群来分发及处理数据,使得硬件成本大幅下降。
高效率(Efficient)。通过并发数据处理,Hadoop可以在节点之间动态并行地处理海量数据,使得数据处理速度得以大幅度提升。
高可靠性(Rellable)。能自动维护数据的多份复制,且在任务失败后自动地重新部署(redeploy)计算任务,Hadoop的按位存储和处理数据的能力值得信赖。
供应链管理的最终目标是确保供应链的正常运行并努力控制其成本。为此,准确预测趋势和进行中断可能性分析等,变得与供应链管理的任何环节一样有价值。供应链物流的大数据能够提供以下价值场景。
·实时进行供应链绩效的分析与管理。
·优化供应商的订单和对客户的履约。
·实时优化路线及库存水平。
·对客户偏好与需求的预测。
·对设备的预测性维护。
·识别扩大业务的机会。
·识别隐藏的低效率流程/节点。
供应链物流的核心目标之一是提供良好的客户体验。在电子商务时代,客户会有获得良好的在线服务体验预期。优质的供应链管理能力及其背后基于大数据的实时数据收集、分析与预测的能力,有助于确保每个客户获得良好的购物体验。
大量企业已经看到大数据的价值并将其纳入整体规划之中。像Amazon、Dell和Tesla这样的企业,不仅使用大数据为其采购零部件和其他业务提供服务,而且通过大数据的分析与预测能力检讨供应链中各种决策的得失,以进一步预测企业未来的走向。
自20世纪80年代以来,很多企业开始将物流等非核心业务外包,一些跨国制造业和服务企业将物流业务委托给第三方物流公司,且将第三方物流公司视为重要合作伙伴。
物流供应商在负责货物流动过程中,会收集/产生很多信息。由于全球定位系统效率的提高、传感器的应用和物联网的进步,物流和供应链大数据自动化的潜力已经出现。将货物本身的信息,如产地、目的地、尺寸、重量、价格、负载内容等,置入运输管理过程中,可以产生更大的价值。在物流领域,预测、运输、库存管理以及人力资源规划和管理都是至关重要的业务活动。通过使用大数据分析和商业智能技术,能够降低物流公司分拣和运营的成本,其他可能的应用场景还包括预测交货时间、了解客户行为、实时调度等。
沃尔玛是全球最大的零售商,在28个国家拥有超过200万名员工和20000家门店。沃尔玛很早就已经开始使用大数据进行客户分析。沃尔玛使用大数据挖掘客户需求并优化销售各环节。沃尔玛持续使用大数据技术优化顾客在沃尔玛商店的购物体验,并通过大数据重新设计全球网站,构建创新应用程序,为客户提供定制服务,提高物流效率。
优步使用大数据分析哪些服务被广泛使用,并研究使用模式,决定如何优化服务。优步专注于让服务的供应和需求相匹配,对于优步来说,数据的最大用途之一是对服务实时定价。消费者在高峰时段需要服务,则必须支付双倍甚至更高的费用,优步通过机器学习算法来确定需求与价格间最合适的匹配关系。
宝洁公司(Procter&Gamble)是一家历史悠久的全球日用消费品公司,其产品几乎涵盖人们日常生活的各个方面。宝洁公司早已认识到大数据的潜力,并将其应用于全球各地的业务部门。宝洁公司通过大数据帮助管理人员实时了解供应链最新数据,并基于数据分析做出更智能实时的商业决策。
UPS通过大数据不断优化“最后一公里”的配送效率。通常供应链的“最后一公里”配送效率低下,其成本高达包裹总交付成本的28%。在送货过程中,送货员的手机定位系统将数据传输到后台,大数据系统则持续记录配送过程中的相关信息。通过对配送过程的分析,系统不断优化“最后一公里”的配送效率。
DHL在所有送货车辆上嵌入传感器,并基于支持全球定位系统的智能手机达到无死角覆盖。DHL基于上述技术研发了智能卡车系统,根据全球定位系统获取的各种数据来优化路线规划。远程信息处理数据库允许司机接收快速路线更新,避免因事故、天气等造成的运输拥堵。到目前为止,智能卡车已将总行驶里程减少了15%,有助于减少二氧化碳排放。
易腐烂物品的保鲜一直是物流企业面临的挑战,大数据和物联网可以帮助送货司机和企业管理者更好地防止货物腐败。他们在卡车内部安装了温度传感器,用于监控商品的状态,并将此数据连同交通数据一起提供给后台系统。如果运输时间过长可能导致易腐产品腐败,该系统则会及时提醒驾驶员并建议优化运输路线。
数据的价值在逐步体现,十年前的大数据如今看来根本不算什么;同样,今天的大数据若干年后也将不再被认为是大数据。更海量的数据存储、更及时的处理要求等在今天看起来是无法想象的场景与需求,若干年后这种情形可能会被颠覆。