让数据成为生产力：数据全生命周期管理最新章节_孙丹著

1.1　数据起源和概述

数据是指对客观事物进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合，它是可识别的、抽象的符号，在我们身边，数据随处可见，可以是我们手机里的一张张照片、医生手中的病历记录，也可以是老师手中的学生成绩表。

数据起源于古人对于事物进行标记的行为。在文字出现之前的漫长年代里，古人用特殊的方式记录事物。《周易·系辞》云：“上古结绳而治”，中国古代人民用智慧创造出了结绳记事法，他们用不同粗细的绳子，在上面结成不同距离的结，绳结又有大小之分，每种结法、距离大小、绳子粗细以及结的数量等都代表着不同的意思。之后又有了商朝的甲骨文，再到后来的罗马数字以及阿拉伯数字，经历了漫长的历史演进后，最终实现了现今数的可计算性。数据不仅可以是狭义上的数字，还可以是具有一定意义的文字、字母、数字符号的组合以及图像、视频和音频等内容，也是客观事物的属性、数量、位置及其相互关系的抽象表示，例如，“阴、晴、雨、雪”“工作人员值班表”“快递外卖订单记录”“河流水位的高低变化”“大熊猫野生种群数量趋势”等都是数据，这些数据经过加工和分析后就成为提高我们决策力和判断力的信息，如通过分析，我们就可以知道水位变化是由于大气降水还是高山冰雪融水等原因造成的，也可以知道大熊猫野生种群的变化趋势以及需要重点进行的下一步保护工作。

在计算机科学中，数据是所有能输入计算机并被计算机程序处理的符号的介质的总称，是用于输入电子计算机进行处理，具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛，表示这些对象的数据也随之变得越来越复杂。

随着人类社会的进步和计算机技术的发展，人们和数据的关系越来越紧密，人类在不断创造数据，数据也在改变着人类的工作和生活，从个人、企业到社会乃至整个世界，数据带来的洞察力不容小觑，数据能够起到识微知著、辅助决策的作用，如日常生活中，利用智能穿戴设备进行作息记录、运动追踪、睡眠管理、机能监测，通过分析这些数据，就能够从不同方面洞察一个人的行为特点并且描绘出一个人的健康自画像等；还可以从一个人的电子消费记录、交易行为、信用卡记录、税务状况对其消费和财务信息有一个大概的判定。

当今的数据应用已经和结绳记事时期天差地别，这也是数字文明随人类文明进步的结果。

整个社会都被数据所包围，数据已经渗透到每一个行业和业务领域。随着数据体量越来越庞大，我们渐渐发现，“数据”往往被冠以“大”这一修饰词，这意味着数据的增长速度已经超出想象。

“大数据”这个词汇其实是从英文Big Data翻译而来的，它指的是所涉及的资料量规模巨大，无法用常规软件工具在一定时间内实现撷取、存储、搜索、共享、管理和分析处理的海量数据集合。

不过，需要注意的是，数据体量庞大并不完全等同于大数据。从应用意义上讲，大数据是对海量数据的分析和挖掘，可以利用技术对数据进行处理，从而发现新的商业机会、扩大市场以及提升效率，这才逐步有了大数据这个概念。从专业化的角度界定，业界赋予了大数据4大重要特征，即4个V，分别为大量化（Volume）、多样性（Variety）、快速化（Velocity）以及价值密度（Value）。

数据量庞大，对于数据体量的增长，身处于数据时代以及数据经济下的每个人都能感受到其速度之快，我们自己以及身边的亲朋好友创造的数据量在不断增长，越来越多的游戏、视频、音乐、照片等资料被创造和存储。企业的业务和运营等数据也在不断创出新高。据IDC（International Data Corporation，国际数据中心）预测，全球数据圈2022年至2026年将实现2倍增长。2026年全球数据圈将达到221ZB。可能这么说给我们的印象还不是很直观，那么，到底221ZB是一个什么概念呢？数据存储解决方案提供商希捷科技在2021年曾宣布，他们出货的硬盘容量已经超过3ZB。3ZB是什么概念呢？据希捷科技所述，如果用10TB的硬盘存储3ZB的数据，那么需要3亿块硬盘。希捷科技还做了更详细的解释，10TB硬盘长度是147mm，3亿块硬盘连起来的长度超过4.41万千米，地球赤道最长大约是4万千米，所以，用这些硬盘连起来绕地球一圈还绰绰有余。那么，221ZB的数据如果用10TB硬盘存储，这些硬盘能够绕地球约81圈。数据量庞大确实是大数据的一个最为重要的特征，也是大数据得以发展的基础。

数据种类多样性，以往的数据基本都是便于存储的文本类数据为主，以结构化数据居多，现在的非结构化数据包括视频、图片以及网络日志等，介于结构化数据和非结构化数据间的半结构化数据越来越多。而数据种类的日益丰富，对于数据的存储以及处理能力提出了更高的要求。多样化的数据需要更多种类的数据处理工具，并且也为数据的应用带来了更多挑战。

在谈论数据多样性时，大多数人都在谈论多种数据源或多种变量数据类型、结构和格式，例如结构化、半结构化或非结构化数据。这些种类可以算作数据种类的客观性质或物理要素。除客观性质外，数据多样性还应该包括人们通常会遗忘或忽略的主观性质。数据的主观多样性是指从不同的角度和不同的实体（例如人、团体和企业）及其相应的用法或应用程序，对数据或洞察力进行解释。因为这些因素实际上驱动着分析、挖掘、集成和应用数据或解释结果的方式。主观多样性和客观多样性同样重要。主观多样性将推动更多客观数据的多样性。

快速的数据流转也是大数据区别于传统数据挖掘的一个最显著的特征。大数据不仅增长速度快、处理速度快，并且具有很强的时效性，例如，在自动驾驶领域，车载以及路面的传感器和雷达等信息需要很强的交互能力和数据流转能力，通过对采集到的数据实现快速分析和判断，从而实现车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协调管理，充分实现人车路的有效协调，从而形成安全、高效、环保的道路交通系统。另外，在信息时代，人成为网络的核心，每个人每天都在创造新的数据，这些数据再被相应的机构、互联网企业、银行、电信运营商等收集，形成了一个个庞大的数据体系。面对如此庞大的数据体系，处理数据并得到结果的速度越快，数据的时效性就越强，价值就越高。当今，大数据的及时应用需求更强调数据处理的实时性和时效性。

数据价值密度也是数据的一个明显特征。数据量在增加，但价值密度未必会同比增加。当前，大数据的价值成为各个企业抢占的滩头，海量以及多样的数据，为数据价值的挖掘带来一定难度，数据量越大，价值密度的提升越不容易。我们知道，不是所有的数据都是有价值的，有时，数据看似很多，但真正有用的可能只是其中很少一部分，这就造成了数据价值密度低的问题。例如，在警察通过监控视频寻找犯罪嫌疑人时，很多情况下，可能在十几TB的数据中才能找到一点点蛛丝马迹，有时还不一定会有收获，因此利用AI（人工智能）人脸识别等技术来提升数据价值密度也是当今大数据界的焦点。

总而言之，大数据其实是现在社会高速发展、科技进步以及信息通畅下的时代产物。有人把数据比喻为蕴藏价值的煤矿。那么，再往细处划分，煤炭有焦煤、无烟煤、肥煤和贫煤等类型，而露天矿和深山矿的开采成本又有很大差异。同理，大数据也一样，不管是什么类型的数据，“有用”为大。数据的价值含量以及挖掘成本更为重要。

时至今日，大数据已经不是什么新奇事物了，只是在近些年得到了更为广泛的关注而已。其实，我们用了很多年的早已经习以为常的Google搜索服务，就是大数据下的产物。根据用户的需求，Google能够实时从全球海量的数据中快速找出匹配或者最为接近的结果，然后呈现给用户，这就是一个非常典型的大数据服务用例。只不过在过去，这个规模的数据量以及商业应用没有在大多数的行业和领域形成普适性，没有完全得到重视，因此，其应用也就没有成型。

当前，随着科技手段的进步，全球迈进数字化，网络覆盖方方面面，数据变得活跃，再也不是被“束之高阁”的存在，数据的价值被一步步发掘。尤其是当数据积累越来越庞大时，越来越多的企业发现，在海量的数据背后，可以发掘出更多的商业机会和市场机遇；而有些行业发现，数据中蕴含着提振行业以及提升生产效率的“良方”；甚至很多国家从海量的数据背后看到的是科技强国、数字强国的远大理想和美好前景。

大数据提升商业价值的一个经典的案例是沃尔玛的“啤酒与尿布”，这个故事发生在20世纪90年代的沃尔玛。沃尔玛一直都非常注重销售数据的收集和分析，一次，超市的管理人员在进行销售数据分析时，发现了一个令人难以理解的现象：尿布和啤酒这两样看起来就像“秦时明月”和“盛唐牡丹”让人难以联想到一起的事物，经常会出现在同一个购物筐中，这一独特的销售现象很令人迷惑，引起了管理人员的兴趣。经过后期的观察和调研，发现这种现象的购物者多数是年轻的父亲。事情的起因是这样的：在美国，有婴儿的家庭中，父母之间的分工一般是母亲在家中照看婴儿，而年轻的父亲则会被派去超市购买尿布。父亲在购买尿布的同时，往往会为自己购买啤酒，这样就出现了啤酒与尿布这两件看上去毫无关联的商品经常会出现在同一个购物筐的现象。

沃尔玛其实是早期利用数据进行运营的企业之一，早在20世纪60、70年代，就已经开始用计算机进行存货跟踪和库存掌握。20世纪80年代，沃尔玛的各家门店就已经开始采用条形码扫描系统，并且还完成了公司内部卫星系统的安装，从而实现了总部、分销中心和所有商场之间实时的数据传输，更有助于全局性运营和决策制定，并且能够打通整个企业的数据渠道，让不同部门之间的数据“活”起来，实现价值最大化。

数据的有效应用是沃尔玛崛起的一个重要因素，而当今的沃尔玛更加注重数据，拥有世界上最大的数据池，存储着海量的销售数据，从而能够和客户进行更有成效、更有针对性以及更精准的沟通。

类似沃尔玛这样的数据应用案例还有很多，比较经典的还有塔吉特的“数据关联挖掘”。对于手忙脚乱的准父母，可能很多都会面临这样那样令人头大的问题，如不知道该准备什么牌子的奶粉、多大尺寸的尿不湿、什么材质的奶瓶以及准备多少套衣服等，各种让准父母头大的问题，都可以通过数据分析被轻易解决掉。塔吉特的“数据关联挖掘”就是这样的一个应用案例。

塔吉特是美国第三大零售商，它利用“数据关联挖掘”这样先进的统计方法，把用户的历史购物记录用于建立模型，然后进行分析和预判。在这个过程中发现，女性客户会在怀孕4个月左右时，大量购买无香味乳液，根据这一现象，大幅提升了判断哪些女性是孕妇的准确率。之后，进一步挖掘出25个与怀孕联系高度紧密的商品，从而提升了“怀孕预估”能力。

这仅仅是该项目的第一步，后面的步骤才是将数据变为长期价值的关键举措，他们会将孕妇和婴儿用品（包括奶粉、孕妇装、婴儿床等）折扣券发放给客户，并且还会在婴儿出生后以及接下来的几年，提供流水线式的量身打造的服务，根据婴儿生长周期推送客户可能会用到的商品，通过这样的个性服务帮助很多父母，从而提升了客户的忠诚度。

说到这里，要提及一个小插曲，一次，塔吉特的员工通过邮件给一位客户发送了孕妇用品折扣券。这位孕妇是一个高中生，当她的父亲看到邮件时，非常愤怒，找到了塔吉特的经理要求道歉，他觉得女儿怎么可能是孕妇，这完全是不可思议的行为。戏剧性的是，几天后迎来了逆转，这位父亲亲自跑来向经理道歉，原来他的女儿确实已经怀孕。这一个小故事恰恰就说明了“数据关联挖掘”这样的方式是行之有效的。

从上面案例中不难看出，单个的用户数据其实没有什么价值，但是将很多数据累积起来，量就会越来越多，数据量达到一定程度时，就会从量变上升到质变。这就好像当今的互联网中的声音，一个人发出的声音可能不会具有很大的影响力，而当成千上万的声音一起出现时，就会引起一些变化甚至变成网络热点，从而能够掀起惊天巨浪。这就是数据的魅力所在。

另外，数据多了，也并不一定能够实现更高的商业价值，有很多企业，它们的数据意识在崛起中，变得越来越注重数据，收集了各种业务数据，也对数据进行了整理、存储，但是不知道该怎么进行数据变现或者让这些数据带来收益，这也是很多机构和企业面临的巨大问题。它们应该认识到，拥有海量的数据并非打开数据财富的密码，拥有大数据思维、知道如何能够利用数据对于企业来讲更有价值。

也有一些企业，在拥有了大量的数据后，掌握了如何利用数据提升应用效率的窍门。举一个小例子，大家都知道航班准点率，并且相信很多人在订购机票前也会把航班准点率放在和票价、航班时间、哪家航空公司等重点考虑因素中，而航班准点率其实就是航空管制机构利用数据来促进准点率提升的一个例子。操作起来其实很简单，在美国，航空管制机构会公布每一个航空公司、每一班航班在过去一年中的晚点率和平均晚点时间，这样，客户在购买机票时就会很自然而然地选择准点率高的航班，通过这样的市场手段，各个航空公司之间就有了更强的竞争，它们会更加努力提升准点率。这是一个非常有效的利用数据提升运营效率的方式。美国航空管理机构就很清楚如何利用数据，让数据说话，让准点率成为比很多其他手段更有效的管理方式。因此，即使手握亿万池的数据，如果没有让数据“活”起来、用起来，数据就会永远是冰冷的数据，不会变成有价值的信息，不会为决策提供依据。而掌握了数据大门的钥匙，这个世界将会呈现不一样的气象。

对于当今的企业来讲，有效管理其数据并且从数据中挖掘价值变得更为重要。通过数据分析，企业可以更全面地了解市场份额、销售状况以及投资风险等各种情况，快速调整战略并尽快抓住市场趋势，为企业获取利益。

当然，数据的应用不仅仅体现在商业上，也不仅仅只有商业能够从中受益。上到国家层面，下到个人用户，都可以从数据的应用中发现截然不同的新天地。

有一个关于我们国家粮食统计的故事，就是国家层面对于数据应用的表率。要知道，我们国家地大物博，拥有九大商品粮基地，包括太湖平原、江汉平原、松嫩平原、鄱阳湖平原等，也有西北干旱区商品粮基地，包括河西走廊、内蒙古和宁夏河套地区。不同地区的气候、降水量以及作物生长季都有很大差异，产粮情况不同，不能简单地以点概面去统计粮食产量。此外，粮食的统计虽然有组织和流程，但中央统计人员需要依靠地方统计人员，而地方层面，需要从省到市，从市到县，从县到乡镇乃至各个村落，通过最基层的调查人员进行调研，逐层上报，这中间难免会出现各种各样的差错和遗漏，不能保障统计数据的准确性。当前，在大数据技术的帮助下，粮食统计变得不再是难题，国家统计局现在采用大数据建模的方式，打破传统的统计流程和瓶颈。它们具体是怎样进行操作的呢？其实是采用遥感卫星，通过图像识别，把国内所有的耕地标识计算出来，然后将耕地进行网格化，之后对每个网格的耕地抽样进行跟踪、调查和统计，然后根据统计学原理，最终计算出我国整体的粮食数据。这种方式不仅能够避免层层上报中出现纰漏的问题，也能够降低所需工作人员的数量以及减轻相关人员的工作量，提升工作流程的效率。当然，最重要的是，能够提升统计的准确性和客观性。

当前的数字经济成为我国经济发展中创新最活跃、增长速度最快、影响最广泛的领域，推动生产生活方式发生深刻的变革。国务院印发的《“十四五”数字经济发展规划》明确了“十四五”时期推动数字经济健康发展的指导思想、基本原则、发展目标、重点任务和保障措施。其中，发展要以数据为关键要素，以数字技术与实体经济深度融合为主线，加强数字基础设施建设，完善数字经济治理体系，协同推进数字产业化和产业数字化，赋能传统产业转型升级，培育新产业、新业态、新模式，不断做强、做优、做大我国的数字经济，为构建数字中国提供有力支撑。

预计到2025年，数字经济核心产业增加值占国内生产总值的10%，数据要素市场体系初步建立，产业数字化转型迈上新台阶，数字产业化水平显著提升，数字化公共服务更加普惠均等，数字经济治理体系更加完善。展望2035年，力争形成统一公平、竞争有序、成熟完备的数字经济现代市场体系，数字经济发展水平位居世界前列。

未来的数字经济一定是欣欣向荣的，我国在发展数字经济的道路上也会一往无前，绝不后退。我国有领先的信息基础设施，产业数字化转型在稳步推进，数字经济不断与国际合作接轨、新业态新模式竞相发展以及发展数字经济过程中涌现出来的大批人才等，都是支撑我国数字经济向前的重要因素。

不过，机遇总是与挑战并存的，我国数字经济发展也面临一些实际存在的问题和挑战，如关键领域创新能力不足，产业链、供应链受制于人的局面尚未根本改变；不同行业、不同区域、不同群体间数字鸿沟还未有效弥合，甚至有进一步扩大的趋势；数据资源规模庞大，但价值潜力还没有充分释放，数据的价值密度有待提升；数字经济治理体系需进一步完善。

未来，数字经济的发展道阻且长，需要我们有行而不辍的决心和孜孜探索的耐力。

1.1 数据起源和概述

1.1　数据起源和概述