21世纪是数据爆炸的时代,大数据成为众多行业领域的热点话题,被认为是信息时代的新“石油”。2006年是个人用户的数据量从以GB为单位发展到了以TB为单位的新纪元。随着互联网技术不断发展、信息化建设不断完善,大数据成为推动社会各行业发展的重要动力,正在深刻改变着人们的思维、生产和生活方式。
我国高度重视大数据在推进经济社会发展中的地位和作用。2014年,大数据首次被写入政府工作报告,并逐渐成为各级政府关注的热点。2015年9月,国务院发布《促进大数据发展的行动纲要》,大数据正式上升至国家战略层面。党的十九大报告提出,要推动大数据与实体经济的深度融合。2021年,工业和信息化部印发的《“十四五”大数据产业发展规划》中指出,数据是新时代重要的生产要素,是国家基础性战略资源。
与“大数据”一词最贴切的概念最早出现在2008年 Nature 杂志所设立的“Big Data”专刊中,该专刊所发表的文章分别从互联网、数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战,大数据在其中被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。自此以后,大数据研究在各国兴起。2011年5月,大数据的概念由信息存储资讯科技公司易安信(EMC)在“云计算相遇大数据”大会正式提出。同年6月,IBM及麦肯锡等著名研究机构也相继发布大数据研究报告。
麦肯锡咨询公司:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
高德纳咨询公司:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
美国国家标准和技术研究院:大数据是数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。
智库百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术包括大规模并行处理(Massively Parallel Processing,MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量的提升。传统意义上的数据处理方式包括数据挖掘、数据仓库、联机分析处理(Online Analytical Processing,OLAP)等,而在“大数据时代”,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、繁复的数据中,收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等。
大数据不是一种新的产品,也不是一种新的技术,其只是数字化时代出现的一种现象。从组成的角度看,海量数据包括结构化和半结构化的交易数据,而大数据除此以外还包括非结构化数据和交互数据。大数据意味着包括交易和交互数据集在内的所有数据集,其规模和复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。可见,大数据由海量交易数据、海量交互数据和海量处理数据三大主要的技术趋势汇聚而成。
20世纪60年代,数据一般存储在文件中,由应用程序直接管理;20世纪70年代,构建了关系数据模型,数据库技术为数据存储提供了新的手段;20世纪80年代中期,数据仓库由于具有面向主题、集成性、时变性和非易失性的特点,成为数据分析和联机分析的重要平台;随着网络的普及和Web 2.0网站的兴起,基于We b的数据库和非关系型数据库等技术应运而生。目前,智能手机和社交网络的广泛使用,使得各种类型的数据呈指数增长,渐渐超出了传统关系型数据库的处理能力,数据中存在的关系和规则难以被发现,而大数据技术很好地解决了这个难题。它能够在成本可承受的条件下,在较短的时间内将数据采集到数据仓库中,并用分布式技术框架对非关系型数据进行异质性处理,进而通过数据挖掘与分析,从海量、多类别的数据中提取价值。大数据技术将是IT领域新一代的技术与架构。
2017年12月8日,中共中央政治局就实施国家大数据战略进行第二次集体学习。习近平总书记在主持学习时深刻分析大数据发展现状和趋势,结合我国实际对实施国家大数据战略、加快建设数字中国作出部署要求,为用好大数据、赢得新时代发展的战略主动指明了方向。
习近平总书记指出,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善。
资料来源:新华社评论员:用好大数据布局新时代—学习习近平总书记在中央政治局第二次集体学习时重要讲话,新华社,2017年12月10日。
高德纳咨询公司从Volume(大量)、Velocity(高速)和Variety(多样)3个维度分析了数据增长带来的机遇与挑战。随后高德纳以及大多数其他产业沿用这一模型,将大数据的基本特征描述为“3V”。随着大数据研究的不断深入,一些组织在大数据基本特征描述中加入了Veracity(真实)和Value(价值)两个词。
IBM将大数据的特征描述为“5V”,即Volume、Velocity、Variety、Veracity和Value。IBM的5V描述提供了一个全面而综合的视角,强调了大数据的体量、速度、多样性、真实性和价值这5个关键特征,帮助人们更好地理解和应用大数据。
Volume指的是大数据的巨大体量。IBM认识到大数据的规模和增长速度是非常庞大的,涉及海量的数据存储和处理。大数据的体量可能从几TB到数百PB乃至更多。IBM强调了处理和管理大数据所需要的高度可扩展的存储和计算能力。
Velocity强调大数据的产生和传输速度。IBM认识到大数据不仅仅是庞大的数据集,还包括实时或接近实时生成的数据流。例如,社交媒体上的实时互动、物联网设备的传感器数据、在线交易的记录等都是以高速率生成的数据。IBM强调了对大数据的实时处理和分析的重要性。
Variety指的是大数据的多样性。IBM认识到大数据不仅包括传统的结构化数据(如关系型数据库中的表格数据),还包括半结构化数据(如XML、JSON格式的数据)和非结构化数据(如文本、图像、音频、视频等)。这些多样的数据类型使得大数据分析更具挑战性,需要采用特殊的技术和工具进行处理和分析。
Veracity强调大数据的真实性和可信度。IBM认识到大数据中可能存在数据不准确、不完整、不一致等问题,这些问题可能是由于数据源的质量、数据收集和传输过程中的错误或干扰等原因导致的。IBM强调了对大数据的质量管理和数据清洗的重要性,以确保数据的可信度和准确性。
Value指的是通过对大数据进行分析和挖掘,揭示出的有用信息和洞察,带来的商业和社会价值。IBM认识到大数据的真正价值在于如何从中提取出对业务决策、创新和增长有意义的见解。通过对大数据进行分析,可以发现隐藏在数据中的模式、趋势和关联性,从而帮助企业做出更准确的决策、提供个性化的服务、改进业务流程、发现新的商机等。
从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别。但是总的来说,大数据的基本处理流程可划分为数据采集、数据处理与集成、数据分析和数据解释4个阶段。
整个大数据处理流程如图3-4所示:首先,从数据源采集数据;其次,考虑到数据结构的不同(包括结构化、半结构化和非结构化数据),用特殊方法进行数据处理和集成,从而将其转变为统一标准的数据格式,以方便以后对其进行处理;然后,用合适的数据分析方法将这些数据进行处理分析;最后利用可视化等技术进行数据解释,将结果展现给用户。
图3-4 大数据处理基本流程
大数据的“大”,原本就意味着数量多、种类复杂。因此,通过各种方法获取数据信息便显得格外重要。数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别、数据检索分类工具(如百度和Google等搜索引擎),以及条形码技术等。同时,由于移动设备的出现,如智能手机和平板电脑的迅速普及,使得大量移动软件被开发应用,社交网络逐渐庞大,这也加速了信息的流通速度和采集精度。
数据处理与集成主要是对已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。大数据的多样性决定了经过各种渠道获取的数据种类和结构都非常复杂,给之后的数据分析处理带来极大的困难。通过数据处理与集成,将这些结构复杂的数据转换为单一的或是便于处理的结构,为以后的数据分析打下良好的基础。由于这些数据里并不是所有的信息都是必需的,而是会掺杂很多噪声和干扰项,因此,还需对这些数据进行“去噪”和清洗,以保证数据的质量以及可靠性。常用的方法是在数据处理的过程中设计一些数据过滤器,通过聚类或关联分析的方法将无用或错误的离群数据挑出来过滤掉,防止其对最终数据结果产生不利影响;然后将这些整理好的数据进行集成和存储。若是单纯随意的放置,则会对以后的数据取用造成影响,很容易导致数据访问性的问题,现在一般的解决方法是针对特定种类的数据建立专门的数据库,将这些不同种类的数据信息分门别类地放置,可以有效地减少数据查询和访问的时间,提高数据提取速度。
数据分析是整个大数据处理流程里最核心的部分。经过数据处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析。传统的数据处理分析方法有数据挖掘、数理统计、机器学习、智能算法等,而这些方法已经不能满足大数据时代数据分析的需求。Google作为互联网大数据应用最为广泛的公司,于2006年率先提出了“云计算”的概念,其内部各种数据的应用都依托Google自己内部研发的一系列云计算技术,例如分布式文件系统GFS(Google File System)、分布式数据库Big Table、批处理计算框架MapReduce,以及开源实现平台Hadoop等。
在一个完善的数据分析流程中,数据结果的解释步骤至关重要。传统的数据显示方式是用文本形式下载输出或用户个人计算机显示处理结果。但随着数据量的加大,数据分析结果往往也更加复杂,用传统的数据显示方法已经不足以满足数据分析结果输出的需求。因此,为了提升数据解释、展示能力,现在大部分企业都引入了数据可视化技术作为解释大数据最有力的方式。通过可视化结果分析,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受。常见的数据可视化技术有基于集合的技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术等。
云计算是大数据处理的基础,也是大数据分析的支撑技术。分布式文件系统为整个大数据提供了底层的数据贮存支撑架构,为了方便数据管理,在分布式文件系统的基础上建立分布式数据库,提高数据访问速度。在一个开源的数据实现平台上利用各种大数据分析技术可以对不同种类、不同需求的数据进行分析整理,从而得出有益信息,最终利用各种可视化技术将数据形象地显示给用户,满足用户的各种需求。
云计算是大数据分析处理技术的核心原理,也是大数据分析应用的基础平台。Google内部的各种大数据处理技术和应用平台都是基于云计算的,最典型的就是分布式文件系统GFS、批处理技术MapReduce、分布式数据库BigTable等大数据处理技术,以及在此基础上产生的开源数据处理平台Hadoop。MapReduce技术是Google于2004年提出的,作为一种典型的数据批处理技术被广泛地应用于数据挖掘、数据分析、机器学习等领域,它的并行式数据处理方式使其成为大数据处理的关键技术。MapReduce技术的提出简化了数据的计算过程,避免了数据传输过程中大量的通信开销,使其可以运用到多种实际问题的解决方案里,公布之后即获得极大的关注,在各个领域均有广泛的应用。
Google结合自己的实际应用情况,自行开发了一种分布式文件系统GFS。这个分布式文件系统是基于分布式集群的大型分布式处理系统,作为上层应用的支撑,为MapReduce计算框架提供低层数据存储和数据可靠性的保障。GFS同传统的分布式文件系统有共同之处,比如性能、可伸缩性、可用性等。然而,GFS受Google特殊的应用负载和技术环境的影响,其在应用负载和技术环境方面的优势使其在大数据时代得到了更加广泛的应用。随着数据量的逐渐加大、数据结构的愈加复杂,最初的GFS架构已经无法满足对数据分析处理的需求,因此,Google对GFS进行了重新设计,将其升级为Colossus,单点故障和海量小文件存储的问题在这个新的系统里得到了很好的解决。除了Google的GFS以及Colossus外,HDFS(Hadoop Distributed File System)、FastDFS和CloudStore等都是类似于GFS的开源实现。
由上述数据处理过程可看出,从数据源处获得的原始数据存储在分布式文件系统中,但是用户的习惯是从数据库中存取文件,传统的关系型分布式数据库已经不能适应大数据时代的数据存储要求。因此Google提出了BigTable的数据库系统解决方案,为用户提供了简单的数据模型。这主要是运用一个多维数据表,表中通过行、列关键字和时间戳来查询定位,用户可以自己动态控制数据的分布和格式。除了BigTable之外,很多互联网公司也纷纷研发可适用于大数据存储的数据库系统,比较知名的有Yahoo的PNUTS和Amazon的Dynamo。这些数据库的成功应用促进了对非关系型数据库的开发与运用,这些非关系型数据库方案现在被统称为NoSQL(Not Only SQL)。
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,Doug Cutting模仿GFS,为MapReduce开发了一个云计算开源平台Hadoop。Hadoop用Java编写,可移植性强。作为目前最受欢迎的大数据处理平台,Hadoop具有以下主要特点:可扩展性、容错性和成本效益。它可以在普通硬件上构建大规模集群,处理和存储PB级别的数据。此外,Hadoop的开源性使得用户可以自由地访问和修改源代码,以满足自身需求。Hadoop提供了一种高效、可靠和经济实惠的方式来处理和分析大规模数据集,帮助组织从海量数据中获取有价值的信息和洞察。它已经成为满足现代数据应用需求的首选解决方案。
面对海量数据的涌现,将数据恰当、清晰地展现给用户成为大数据时代的重要挑战。大数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像,在屏幕上显示出来,并进行交互处理的理论、方法和技术。大数据可视化借助人类视觉思维能力,将抽象的数据转化为可见的图形或图像,比文字更易于用户理解和接受。例如在大众点评网可以轻松地根据地理信息找到附近的餐厅、KTV、商店等,用户可以根据自己的体验对这些店铺进行评价,这种常见的社交网络或生活消费类应用与数字网络地图的叠加,就是多维叠加式数据可视化应用。另外,支付宝的电子对账单通过用户一段时间的支付宝使用信息,自动生成专门针对此用户的本月消费产品数据图表,可以帮助用户分析其自身的消费情况,这是一种即时的关联规则下的大数据可视化技术的应用。
大数据技术在智慧供应链中的应用主要包括支持需求预测和规划、实时监控和预警、供应链协同和合作、风险识别和管理,以及智能决策和优化等方面。通过充分利用大数据技术,企业可以提升供应链的效率、可靠性和创新能力,实现智慧供应链的优化和持续改进。
大数据技术可以帮助企业进行准确的需求预测和规划。通过收集和分析供应链中的大量数据,包括历史销售数据、市场趋势、客户行为等,企业可以识别出潜在的需求模式和趋势。基于这些数据,企业可以做出更准确的需求预测,从而能够优化库存管理、生产计划和物流安排,降低库存成本,提高供应链的灵活性和响应能力。
大数据技术可以实现对供应链各个环节的实时监控和预警。通过监测实时数据流,如销售数据、库存状况、供应商交付时间等,企业可以迅速捕捉到供应链中的异常和风险。通过设置预警机制,如阈值警报、异常模式检测等,企业可以及时采取措施应对潜在的问题,避免供应链中断和损失。
大数据技术可以促进供应链协同和合作。在智慧供应链中,涉及多个参与方,如供应商、制造商、物流服务提供商等。通过共享和分析大数据,这些参与方可以更好地协同工作,提高供应链的整体效率和可靠性。大数据分析可以帮助企业建立供应链网络和合作伙伴关系。通过分析供应链中各个参与方的数据,企业可以选择最合适的合作伙伴,建立稳定和高效的供应链网络。此外,大数据技术还可以支持供应链中的合作决策和协同计划。通过共享实时数据和洞察,供应链中的不同参与方可以更好地协同工作,共同制订计划和决策。
大数据技术可以帮助企业进行供应链风险识别和管理。通过对供应链中的各种数据进行分析,如供应商评估数据、地理信息、天气数据等,企业可以识别和评估潜在的风险因素。基于这些数据,企业可以制定风险管理策略,如多源供应商策略、备份计划、应急响应等,以减少供应链中的不确定性和风险。
大数据技术为智慧供应链的智能决策和优化提供了强大支持。通过对供应链数据的综合分析和模式识别,企业可以制定更智能的决策和优化策略。例如,基于大数据分析结果,企业可以优化供应链网络设计、运输路线规划、库存定量、供应商选择等。
京东智慧供应链商家开放平台结合京东YAIR零售行业人工智能平台提供的大数据和算法能力,将行业领先的供应链管理理念平台化、产品化,通过提供精细化、智能化、自动化库存决策产品,为商家提供最优库存管理决策支持,将更专业的智慧供应链全链路解决方案开放赋能。
在存货布局上,平台通过数据挖掘,分析商家的经营数据、存货布局的现状,结合大数据预测结果洞悉商家未来的经营趋势,并通过模拟仿真,在商家期望的时效渗透率及成本约束下,给出极值的分仓建议,提升用户体验;在销量计划上,平台以商家的商品信息、历史销售信息、促销方式、时段等数据为基础,有效减少商家收集数据做预测分析的时间,提升了预测准确度;在库存健康上,平台依托经典库存管理体系,不断拥抱人工智能和精准定位来链接用户,集库存监控、库存诊断及优化建议、商品分类处理执行、供应链全链路运作监控于一体;在智能补货上,平台基于京东AI技术和大数据分析技术预测商品的未来销量,通过先进的补货模型和科学合理的补货参数输出补货建议,提升补货精准度,降低周转与库存成本,全面提升商家库存管理能力;在滞销处理上,平台根据不同类型滞销场景系统自动给出对应的处理建议,以数据可视化的方式展示滞销商品分布、分级,智能给出处理建议。
资料来源:翟继茹,京东智慧供应链加速度:发布开放协同平台 启动两大C2M创新中心,DoNews,2020年11月27日。