大数据管理与应用最新章节_王刚著

第一章
绪论

随着新一代信息技术的不断发展，数据在人们的生活中发挥着越来越重要的作用，人类社会已经进入大数据时代。大数据时代产生了许多基于海量数据挖掘和分析的新模式，大数据及其相关技术对政治、经济以及文化领域产生了重要影响，人们的思维和决策方式同样也迎来了巨大变革。在本章中你将了解大数据时代的主要背景，掌握数据和大数据的概念及其特征，并了解大数据的管理和应用，理解大数据管理与应用的理论、技术和应用体系。

■ 学习目标

·了解大数据时代的主要背景

·掌握数据和大数据的概念及其特征

·理解数据生产要素、大数据管理和大数据应用的概念

·理解大数据管理与应用的理论、技术和应用体系

■ 知识结构图

第一节
大数据时代

一、大数据时代的背景

近些年，云计算、物联网和移动互联网、社交媒体等新型信息技术和应用模式快速发展，信息技术渗透进人类世界的政治、军事、生活等各个领域，并与之不断融合，数据成为又一个重要的生产要素，成为人类生产活动必不可少的一部分，人类活动产生的数据量飞速增长。可以说，人类社会已经迈入一个新的时代——大数据时代。

全球知名的咨询公司麦肯锡最早提出了“大数据时代”的到来。麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率的增长和消费者盈余浪潮的到来。”如今，“大数据”已经成为热度最高、人们最关注的IT词汇之一，大数据与各个传统的应用领域相结合，带来了更多的新技术和新模式，引发了新一轮创新浪潮。为了更好地对大数据进行处理加工，挖掘其更多的价值，数据仓库、数据分析、数据挖掘等相关技术被广泛应用于大数据处理分析过程中，大数据及其相关技术已经成为各行各业重点关注和讨论的对象。其实早在1980年，著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，就将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

大数据并不是一个新鲜的词汇，事实上，大数据之前在生物学、环境生态学等领域以及金融和通信等行业已经有了相当一段时间的应用，但在非相关领域的热度并不高。直到2009年，互联网行业蓬勃发展，大数据逐渐成为互联网和信息技术行业的热度词汇后，才开始更多地进入人们的视野。到了2012年，大数据一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。如今，大数据及其相关技术受到媒体、政府以及各个行业领域的高度关注，无数专栏封面和新闻都少不了大数据及其相关技术的身影，而时兴的互联网主题相关讲座和报告等也都愿意以它为主题，甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。

数据正在迅速膨胀，它决定着许多传统行业的未来。早在2012年，世界上的数据量已经从TB级别跃升到PB、EB，乃至ZB级别。国际数据公司（International Data Group）的研究表明，2009年的全球数据量为0.8ZB，一年后这一数据增加了0.3ZB，到2011年数据量一度攀升至1.82ZB，这是一个非常庞大的数字，相当于全球每人一年产生200GB以上的数据。而根据国际权威机构Statista的预测，到2035年，全球数据产生量将达到2142ZB，全球数据量的规模将会出现爆发式增长。据美国互联网数据中心报道，如今，互联网上的数据几乎每年增长50%，每两年便翻一番。当然，互联网数据并非单纯指互联网上存在的数据，还包括一些信息采集设备上传的数据。全世界的各类设施设备、人们的一些可穿戴设备上有着无数用于数据采集的传感器，这些传感器能实时采集设备以及环境的时间、地理位置等，也产生了海量的数据。

大数据作为一种新的资源和生产要素，所具有的潜在的巨大价值逐渐被人们发掘和认可。虽然现在各个领域尚未深刻意识到大数据时代数据爆炸性增长带来的机遇和挑战，但是随着时间的推移，人们将越来越多地意识到数据对各个行业的重要性。大数据时代已经来临，在商业、经济及其他领域中，基于经验和直觉的决策不再被封为圭臬，相反，基于数据和分析的决策将越来越多地得到人们的认可。哈佛大学的社会学教授加里·金形容：“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。”然而，大数据及其相关技术更为重要的含义在于对大数据进行专业的处理和利用，进一步发掘大数据中蕴含的大量价值，而非仅仅收集和存储大量的数据。从产业角度看，大数据作为一种新型产业，其实现盈利的关键，就在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。当然，大数据不仅对商业领域造成了巨大影响，在政治和社会文化以及其他传统领域同样带来了巨大变革。大数据相关技术让大量的数据成为新的重要生产要素，它通过技术的创新与发展以及数据的全面感知、收集、分析、共享，为人们提供了一种全新的看待世界的方法，使人们更多地基于事实与数据做出决策。这意味着社会不再仅仅依赖经验和惯性思维进行管理和运作，遵循数据的管理和运作模式将逐渐成为社会主流。

二、大数据时代的巨大变革

大数据时代的到来不仅将改变人们的生活方式和思维模式，还将进一步带来企业和国家核心竞争力结构的改变，并将带来人类管理层面的巨大变革。

（一）大数据时代的思维变革

对于大数据的把握，更多的在于挖掘和理解数据和信息内容及信息与信息之间的关系，这个问题一直是大数据以及一些相关行业关心的重点。人类社会对数据的使用已经有相当长的一段时间了，包括一些日常进行的大量非正式观察，以及过去几年中相关行业的研究者们在专业层面上用高级算法进行的量化研究，都是围绕数据展开的。

大数据时代，专业的数据处理技术使得规模庞大的数据的处理迅速并且高效，即使是千万级别的数据量也能够在转瞬间处理完毕。然而数据量的庞大并不是大数据的重点，人们更加关注从大量数据中提取出有价值的信息，如何能让数据“说话”，才是大数据的核心意义。实际上，大数据与三个重大的思维转变有关，这三个转变是相互联系和相互作用的。

首先，从数据分析的角度来说，要完成从“小样本”到“整体”的转变，要分析与某事物相关的所有数据，而不是只分析少量的数据样本。其次，关于数据的质量，数据的精确性不再是唯一标准，多样化、异构的数据同样值得分析和处理。最后，也是最为关键的一点，在思维上需要产生转变，不再探求难以捉摸的因果关系，转而关注事物的相关关系。

（二）大数据时代的商业变革

大数据时代来临，人们将越来越多地从数据的角度来审视现实世界，世界由无数信息构成，蕴含着规模庞大的等待挖掘的数据，这是一种可以渗透到所有生活领域的世界观。在可以预见的将来，数字化技术将会对众多传统行业产生巨大影响，例如，数字化的信息传播将以最快的速度不断刷新人们的认知，而传统的印刷以及媒体行业必将面对数字化技术带来的挑战。同时，由于数字化技术赋予了人类数据化世间万物的能力，它也推动了互联网发展的新业态。在商业领域，大数据正被用来创造新型价值，可以肯定的是，经济正在渐渐开始围绕数据形成一种新的形态，很多新参与者可以从中受益，而一些资深参与者则可能会找到令人惊讶的新生机。可以说，数据是一个平台，因为数据是新产品和新商业模式的基石。

除此之外，大数据同样对企业竞争力甚至是行业结构产生了巨大影响，大数据时代的数据将会成为企业核心竞争力的重要组成部分。当然，具体的影响程度因公司而异。在更高层面上，大数据也会撼动国家竞争力。从大数据的角度出发，工业化国家因为掌握了数据以及大数据技术，所以仍然在全球竞争中占有优势。然而，这个优势很难持续。就像互联网和计算机技术一样，随着这些技术在世界范围内逐渐普及，预先掌握大数据技术并处于领先地位的优势将会逐渐被掩盖。对于处于竞争当中的无数国家和企业来说，大数据将会带来新的机遇和挑战，如果一个公司掌握了大数据，那么超越竞争对手甚至是达到使其难以望其项背的水平也绝非不可能完成的工作。

（三）大数据时代的管理变革

大数据作为一把双刃剑，在为我们的生活提供便利的同时，也让保护隐私的法律手段失去了应有的效力。大数据时代的隐私保护无论是在相关技术还是规章制度方面都存在一定的缺失，这是大数据时代面临的一大重要问题。同样，通过大数据进行预测，对于一些未来可能发生的事情进行筹备或者遏制，也成为相关领域人们争论的焦点，从某种程度上说大数据向人类的意志自由发起了挑战，这就使得人们在使用大数据及其相关技术的同时必须杜绝对数据的过分依赖，以防我们重蹈伊卡洛斯的覆辙。人类社会不能像过分相信自己的飞行技术的飞行员，犯下由于误用了数据而落入海中的错误。

我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时，这些变革也会带动社会需要维护的核心价值观的转变。大数据时代由于大数据而产生的风险是前所未有的全新挑战，在原有制度的基础上添加新的制约或条件是远远不足以应对新挑战的，因此，我们需要全新的制度规范，而不是修改原有规范的适用范围。对于涉及个人隐私或商业机密的数据处理工具，需要制定相关政策约束其权力并使其承担相应责任。同时，社会需要重新定义公正的概念，在保证人们自由权利的同时，也相应地为享有这些权利而承担责任。大数据相关的新领域专家和行业机构需要设计复杂的程序对大数据进行解读，挖掘出其潜在的价值和结论，并将这些结论用于支持受到大数据影响的人们。对已有的规范进行修修补补已经不够了，制度需要推陈出新。

大数据不仅与许多日常问题息息相关，更将重塑我们的生活、工作和思维方式。大数据在为人们带来巨大便利的同时也引发了很多争议和挑战，这种挑战不仅仅是数据和信息规模的爆炸式增加，而是一些根本性的问题发生了变化，过去确定无疑的事情当下正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。人们的世界观正受到相关性优势的挑战。应对大数据带来的巨大变革和挑战，没有万无一失的方法，必须建立规范自身的新准则。随着相关技术的发展和成熟，人们将更好地把握大数据，了解其特征和缺陷，从而做出一系列改变。

第二节
数据和大数据

一、数据

（一）数据的概念

“数据科学”这门学科研究的核心内容就是数据，那究竟什么是数据呢？一提到数据，我们首先想到的会是数字。但数据并不局限于数字，文本、音频、图像、视频都可以是数据。在这本书里，我们对数据进行如下的定义：

数据是指以定性或者定量的方式来描述事物的符号记录，是可定义为有意义的实体，它涉及事物的存在形式。数据的含义很广，不仅指1011、8084这样一些传统意义上的数据，还指“dataology”“上海市数据科学重点实验室”“2020/02/14”等符号、字符、日期形式的数据，也包括文本、声音、图像、照片和视频等类型的数据，而微博、微信、购物记录、住宿记录、乘飞机记录、银行消费记录、政府文件等也都是数据。

在这里，我们需要注意的是数据与信息、知识等概念之间存在一定的区别和联系。这三者之间最主要的区别是所考虑的抽象层次不同。数据是最低层次的抽象，信息次之，知识则是最高层次的抽象。数据是用来记录客观事物状态的原始符号；信息是经过解释和理解，能够消除人们某种不确定性的东西；而知识则是可指导行动的信息。

我们对数据进行解释和理解之后，才可以从数据中提取出有用的信息。对信息进行整合和呈现，则能够获得知识。例如，世界第一高峰珠穆朗玛峰的高度8848.86m，可以认为是“数据”；一本关于珠穆朗玛峰地质特性的书籍，则是“信息”；而一份包含了攀上珠穆朗玛峰最佳路径信息的报告，就是“知识”了。所以，我们说数据是信息的载体，是形成知识的源泉，是智慧、决策以及价值创造的基石。

近年来，数据规模与利用率之间的矛盾日益凸显。一方面，数据规模的“存量”和“增量”在快速增长。根据国际权威机构Statista的统计和预测，全球数据量在2019年约达到41ZB，预计到2025年，全球数据量将是2016年的16.1ZB的十倍，达到163ZB。在人们的生活与生产中，正在生成、捕获和积累着海量数据。例如，纽约证券交易所（NYSE）每天生成4~5TB的数据；Illumina的HiSeq2000测序仪（Illumina HiSeq 2000 Sequencer）每天可以产生1TB的数据；大型实验室拥有几十台类似LSST望远镜（Large Synoptic Survey Telescope）的机器，每天可以生成40TB的数据；Facebook每个月数据增长达到7PB；瑞士日内瓦附近的大型强子对撞机（Large Hadron Collider）每年产生约30PB的数据；Internet Archive项目已存储了大约18.5PB的数据等。

另一方面，我们缺乏对“大数据”的开发利用能力。虽然我们经常提到或听到“数据是一种重要资源”，但我们并不深入了解数据，尤其是大数据的本质及其演化规律，更没有具备将数据资源转换为业务、决策和核心竞争力的能力。因此，我们急需包括理念、理论、方法、技术、工具、应用在内的一整套科学知识体系——大数据管理与应用。

（二）数据模型

数据建模是人们理解数据的重要途径之一。按照应用层次和建模目的，可以把数据模型分为三种基本类型：概念数据模型﹑逻辑数据模型和物理数据模型。因此，在实际工作中，需要注意数据模型的层次性，不同类型的人员所说的数据模型可能不在同一个层次之上。当然，不同层次的数据模型之间也存在一定的对应关系，可以进行相互转换，如图1-1所示。

概念数据模型（Conceptual Data Model）是以现实世界为基础，从普通用户（如业务员﹑决策人员）的视角对数据构建的模型，主要用来描述世界的概念化结构，与具体的数据管理技术无关，即同一个概念数据模型可以转换为不同的逻辑数据模型。常用概念数据模型有：ER图（Entity Relationship Diagram），面向对象模型和谓词模型等。

逻辑数据模型（Logical Data Model）是在概念数据模型的基础上，从数据科学家视角对数据进一步抽象的模型，主要用于数据科学家之间的沟通和数据科学家与数据工程师之间的沟通。常用的逻辑模型有：关系模型、层次模型、网状模型、key-value、key-document、key-column和图模型等。

图1-1 数据模型的层次

物理数据模型（Physical Data Model）是在逻辑数据模型的基础上，从计算机视角对数据进行建模后得出的模型﹐主要用于描述数据在存储介质上的组织结构，与具体的平台（包括软硬件）直接相关。常用的物理模型有：索引、分区、复制、分片、物化视图、事务、版本戳等。

通常，数据科学中数据的捕获、存储、传递、计算、显示处理的难点源自“数据的异构性”——涉及多种数据模型或同一类模型的不同结构。为此，数据科学家经常采用跨平台（应用）性较强的通用数据格式，即用与特定应用程序（及其开发语言）无关的数据格式的方法来实现在不同应用程序之间进行数据传递和数据共享。常见的通用数据格式有：关系（二维表/矩阵）、CSV（Comma Separated Value）、JSON（JavaScript Object Notation）、XML（Extensible Markup Language）、RDF（Resource Description Framework）和OWL（Web Ontology Language）等。

（三）数据维度

数据分类是帮助人们理解数据的另一个重要途径。为了深入理解数据的常用分类方法，我们可以从三个不同维度分析数据类型及其特征。

从数据的结构化程度看，可以分为：结构化数据、半结构化数据和非结构化数据，如表1-1所示。在数据科学中，数据的结构化程度对于数据处理方法的选择具有重要影响。例如，结构化数据的管理可以采用传统关系数据库技术，而非结构化数据的管理往往采用NoSQL、NewSQL或关系云技术。

表1-1 结构化数据、半结构化数据和非结构化数据

结构化数据 ：以“先有结构，后有数据”的方式生成的数据。通常，人们所说的“结构化数据”主要指的是在传统关系数据库中捕获、存储、计算和管理的数据。在关系数据库中，需要先定义数据结构（如表结构、字段的定义、完整性约束条件等），然后严格按照预定义的结构进行捕获、存储、计算和管理数据。当数据与数据结构不一致时，需要按照数据结构对数据进行转换处理。

非结构化数据 ：没有（或难以发现）统一结构的数据，即在未定义结构的情况下或并不按照预定义的结构捕获、存储、计算和管理的数据。通常主要指无法在传统关系数据库中直接存储、管理和处理的数据，包括所有格式的办公文档、文本、图片、图像和音频、视频信息。

半结构化数据 ：介于结构化数据（如关系型数据库、面向对象数据库中的数据）和非结构化数据（如语音、图像文件等）之间的数据。例如，HTML、XML，其数据的结构与内容耦合度高，需要进行转换处理后才可发现其结构。目前，非结构化数据占比最大，绝大部分数据或数据中的绝大部分属于非结构化数据。因此，非结构化数据是数据科学中重要研究对象之一，也是当下的数据管理区别于传统数据管理的主要区别之一。

从数据的加工程度看，可以分为：零次数据、一次数据、二次数据和三次数据，如图1-2所示。数据的加工程度对数据科学中的流程设计和活动选择具有重要影响。例如，数据科学项目可以根据数据的加工程度来判断是否需要进行数据预处理。

图1-2 数据的加工程度

零次数据 ：数据的原始内容及其备份数据。零次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题。

一次数据 ：对零次数据进行初步预处理（包括清洗、变换、集成等）后得到的“干净数据”。

二次数据 ：对一次数据进行深度处理或分析（包括脱敏﹑规约、标注）后得到的“增值数据”。

三次数据 ：对一次或二次数据进行洞察分析（包括统计分析﹑数据挖掘、机器学习可视化分析等）后得到的，可以直接用于决策支持的“洞见数据”。

从数据的抽象或封装程度看，可分为：数据、元数据和数据对象三个层次，如图1-3所示。在数据科学中，数据的抽象或封装程度对于数据处理方法的选择具有重要影响。例如，是否需要重新定义数据对象（类型）或将已有数据封装成数据对象。

图1-3 数据的封装

数据：对客观事物或现象直接记录下来后产生的数据，例如介绍数据科学知识的教材《数据科学》的内容。

元数据 ：数据的数据，可以是数据内容的描述信息等。教材《大数据管理与应用》的元数据有作者、出版社、出版地、出版年、页数、印数、字数等。通常，元数据可以分为5大类：管理、描述、保存、技术和应用类元数据。

数据对象 ：对数据内容与其元数据进行封装或关联后得到的更高层次的数据集。例如，可以把教材《大数据管理与应用》的内容、元数据、参考资料、与相关课程的关联数据以及课程相关的行为封装成一个数据对象。

（四）数据特征

人类社会的进步发展是人类不断探索自然（宇宙和生命）的过程，当人们将探索自然界的成果存储在网络空间中的时候，却不知不觉地在网络空间中创造了一个数据界。虽然是人生产了数据，并且人还在不断生产数据，但当前的数据已经表现出不为人控制、未知性、多样性和复杂性等自然界特征。

首先，数据不为人类所控制。数据出现爆炸式增长，人类很难加以控制，此外无法控制的还有计算机病毒的大量出现和传播、垃圾邮件的泛滥、网络的攻击、数据阻塞信息高速公路等。人们在不断生产数据，不但使用计算机产生数据，而且使用各种电子设备生产数据，例如照相、拍电影、出版报纸等都已经数字化了，这些工作都在生产数据；拍X线片、做CT检查、做各种检验等也都在生产数据；人们出行坐车、上班考勤、购物刷卡等也都在生产数据。不仅如此，像计算机病毒这类数据还能不断快速大规模地产生新数据。这种大规模的随时随地生产数据的情形是任何政府和组织所不能控制的。虽然从个体上来看，其生产数据是有目的的、可以控制的，但是总体上来看，数据的生产是不以人的意志为转移的，是以自然的方式增长的。因此，数据增长、流动已经不为人类所控制。

其次，数据具有未知性。在网络空间中出现大量未知的数据、未知的数据现象和规律，这是数据科学出现的原因。未知性包括：不知道从互联网上获得的数据是不是正确的和真实的；在两个网站对相同的目标进行搜索访问时得到的结果可能不一样，不知道哪个是正确的；也许网络空间中某个数据库早就显示人类将面临能源危机，我们却无法得到这样的知识；我们还不知道数据界有多大，数据界以什么样的速率在增长？

早期使用计算机是将已知的事情交给计算机去完成，将已知的数据存储到计算机中，将已知的算法写成计算机程序。数据、程序和程序执行的结果都是已知的或可预期的。事实上，这期间计算机主要用于帮助人们工作、生活，提高人们的工作效率和生活质量。因此，计算机所做的事情和生产的数据都是清楚的。

随着设备和仪器的数字化进程，各种设备都在生产数据，于是大量人们并不清楚的数据被生产出来并存入网络空间。例如：自从人类基因组计划（Human Genome Project，HGP）开始后，巨量的DNA数据被存储到网络空间中，这些数据是通过DNA测序仪器检测出来的，是各种生命的DNA序列数据。虽然将DNA序列存入网络空间，但在存入网络空间时并不了解DNA序列数据表达了什么？有什么规律？是什么基因片段使得人之间相同或不同？物种进化的基因如何变化？是否有进化或突变……

虽然每个人是将个人已知的事物和事情存储到网络空间中，但是当一个组织、一个城市或一个国家的公民都将他个人工作、生活的事物和事情存储到网络空间中时，数据就将反映这个组织﹑城市或国家整体的状况，包括国民经济和社会发展的各种规律和问题。这些由各种数据的综合所反映出的社会经济规律是人类事先不知道的，即信息化工作将社会经济规律这些未知的东西也存储到了网络空间中。

网络空间自有非现实数据更是未知的。例如，电子游戏创造了一个全新的活动区域，这个区域的所有场景、角色都是虚拟的。这些虚拟区域的事物又通过游戏玩家与现实世界联系在一起。因此，游戏世界表现和内在的东西在现实世界中没有，是未知的。

最后，数据具有多样性和复杂性。随着技术的进步，存储到网络空间中的数据的类别和形式也越来越多。所谓数据的多样性是指数据有各种类别，如各种语言的、各种行业的，也有在互联网中或不在互联网中的、公开或非公开的、企业的、政府的数据等。数据的复杂性有两个方面：一是指数据具有各种各样的格式，包括各种专用格式和通用格式；二是指数据之间存在着复杂的关联。

二、大数据

（一）大数据概念

权威研究机构Gartner对大数据给出了这样的定义：大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在这个定义里，主要强调的是大数据的出现所带来的挑战和机遇，即数据处理的难度加大了，而从中所能获取的价值也增加了。

同样地，维基百科也给出了一个大数据的定义：“大数据，或称巨量资料，指的是所涉及的数据量规模巨大到无法通过人工在合理时间内截取、管理、处理，并整理成为人类所能解读的信息。”可见，维基百科的定义更加强调大数据的数据规模之庞大。

IBM用四个特征来描述大数据，即规模性（Volume）、高速性（Velocity）、多样性（Variety）和真实性（Veracity），这些特征相结合，定义了IBM所称的“大数据”。这个定义显然也是把大数据定义为一种数据集合，而且集合中的数据具有规模性、高速性、多样性和真实性。所以，大数据研究所关心的应该是对结构多样性的大数据能够进行高速存储和高速处理的技术。

从管理的角度看大数据，大数据是一类能够反映物质世界和精神世界的运动状态和状态变化的信息资源，它具有决策有用性、安全危害性以及海量性、异构性、增长性、复杂性和可重复开采性，一般都具有多种潜在价值。这个定义把大数据看作一类资源，它具有决策有用性，对经济社会发展具有重要的潜在价值。按照大数据的资源观，大数据研究的关键科学问题应该包括大数据的获取方法、加工技术、应用模式以及大数据的产权问题、相关的产业发展问题和相应的法律法规建设问题。

（二）大数据特征

从不同的角度看待大数据，对大数据的侧重点理解也各有不同。然而，无论从怎样的角度看待大数据，都离不开对大数据主要特征的把握和总结。本章将大数据的主要特征定义为以下四个方面。

Volume（规模性）： “数据量大”是一个相对于计算和存储能力的说法，就目前而言，当数据量达到PB级以上时，一般称为“大”的数据。但是，我们应该注意到，大数据的时间分布往往不均匀，近几年生成数据的占比最高。

Variety（多样性）： 数据多样性是指大数据存在多种类型的数据，不仅包括结构化数据，还包括非结构化数据和半结构化数据。有统计显示，在未来，非结构化数据的占比将达到90%以上。非结构化数据所包括的数据类型很多，例如网络日志、音频、视频、图片、地理位置信息等。数据类型的多样性往往导致数据的异构性，进而加大了数据处理的复杂性，对数据处理能力提出了更高要求。

Value（价值密度低）： 在大数据中，价值密度的高低与数据总量的大小之间并不存在线性关系，有价值的数据往往会被淹没在海量无用数据之中，也就是人们常说的“我们淹没在数据的海洋，却又在忍受着知识的饥渴”。例如，一段长达120分钟连续不间断的监控视频中，有用数据可能仅有几秒。因此，如何在海量数据中洞见有价值的数据成为数据科学的重要课题。

Velocity（高速性）： 大数据中所说的“速度”包括两种——增长速度和处理速度。一方面，大数据增长速度快。另一方面，我们对大数据处理的时间（计算速度）要求也越来越高，这让“大数据的实时分析”成为热门话题。

（三）大数据的来源和产生方式

大数据的来源非常多，如信息管理系统、网络信息系统、物联网系统、科学实验系统等。

信息管理系统 ：企业内部使用的信息系统，包括办公自动化系统、业务管理系统等。信息管理系统主要通过用户输入和系统二次加工的方式产生数据，其产生的大数据大多数为结构化数据，通常存储在数据库中，一般为关系型数据。

网络信息系统 ：基于网络运行的信息系统即网络信息系统是大数据产生的重要来源，如电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统。网络信息系统产生的大数据多为半结构化或非结构化的数据，在本质上，网络信息系统是信息管理系统的延伸，专属于某个领域的应用，具备某个特定的目的。因此，网络信息系统有着更独特的应用。

物联网系统 ：物联网是新一代信息技术，其核心和基础仍然是互联网，是在互联网基础上延伸和扩展的网络，其用户端延伸和扩展到了任何物品与物品之间，来进行信息交换和通信，而其具体实现是通过传感技术获取外界的物理、化学、生物等数据信息。

科学实验系统 ：主要用于科学技术研究，可以由真实的实验产生数据，也可以通过模拟方式获取仿真数据。

从数据库技术诞生以来，产生大数据的方式主要有以下3种。

被动式生成数据 ：数据库技术使得数据的保存和管理变得简单，业务系统在运行时产生的数据可以直接保存到数据库中，由于数据是随业务系统运行而产生的，因此该阶段所产生的数据是被动的。

主动式生成数据 ：物联网的诞生，使得移动互联网的发展大大提升了数据的产生速度。例如，人们可以通过手机等移动终端，随时随地产生数据。大量移动终端设备的出现，使用户不仅主动提交自己的行为，还和自己的社交圈进行了实时互动，因此数据被大量地生产出来，且具有极其强烈的传播性。显然如此生成的数据是主动的。

感知式生成数据 ：物联网的发展使得数据生成方式得到彻底的改变。例如遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集并生成数据。

第三节
大数据的管理与应用概述

一、数据生产要素

经济学理论中讲的生产要素是社会在进行生产活动时所需要的种种社会资源。所以要将大数据界定为资源，首先要界定其为一种生产要素。界定某种事物为生产要素，要看其在已有的经营决策下是否参与价值创造，益于降低成本，提高收益率。在这个充满信息数据的时代，大数据一方面有助于人们科学决策，另一方面会导致具体的项目活动成本以及收益的变动，可以说大数据促进了价值创造。所以，大数据可以被界定为一种新的生产要素，即大数据就是资源。

随着大数据技术与各领域的融合，社会对其认识也日益加深，大数据作为一种资产、资源已成共识。“21世纪的石油”“21世纪的钻石矿”“数字经济的燃料”“基础性资源”“第四次工业革命的战略资源”等成为人们描绘大数据重要性的典型词汇。许多国家或国际组织也将大数据视作战略资源，例如，2011年，麦肯锡在报告中称“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素”；2012年世界经济论坛的报告宣称，数据已经成为一种新的经济资产类别，就像货币或黄金一样；2013年召开的第462次香山科学会议则给出一个非技术型定义：“大数据是数字化生存时代的新型战略资源，是驱动创新的重要因素，正在改变人类的生产和生活方式。”中国共产党第十九届中央委员会第四次全体会议提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”，首次将数据确认为第七种生产要素。生产要素从第一次工业革命的土地、劳动、资本，扩展到第二次工业革命的技术、管理，再到第三次工业革命的知识要素，逐步形成了清晰的生产要素大纲，同时也反映了随着经济活动数字化转型的加快，数据对提高生产效率的乘数作用日益凸现，成为最具时代特征的新生产要素。

二、大数据管理

随着大数据时代的悄然来临，大数据的价值得到广泛认可。有效管理大数据，沉淀成数据资产，对内可实现数据资产增值，对外可实现数据共享变现，是企业的通用诉求。大数据管理以“互联网+”和大数据时代为背景，依靠大数据分析理论和方法，通过对不同来源数据的管理、处理、分析与优化，将结果反馈到实际应用中，将创造出巨大的经济和社会价值。基于管理的视角，当大数据被看作一类“资源”时，为了有效地开发、管理和利用这种资源，就不可忽视其获取问题、安全性问题、所有权问题、产业链发展问题、共享与应用问题等相关问题。

（一）大数据资源的获取问题

正如自然资源开发和利用之前需要探测，大数据资源开发和应用的前提也是有效地获取。大数据的获取能力一定意义上反映了企业对大数据的开发和利用能力，大数据的获取是大数据研究面临的首要管理问题。制定大数据获取的发展战略、建立大数据获取的管理机制、业务模式和服务框架等是企业在这一方向中需要研究的重要管理问题。美国谷歌、苹果和Facebook等大型信息技术企业已经收集并存储了大量数据，掌握了较为成熟的大数据技术和管理机制，并建立了比较完善的大数据技术体系和服务框架。中国的相关企业和组织也已经意识到大数据资源的重要价值，如中国的百度、阿里巴巴、腾讯等信息技术企业已经将大数据相关业务作为重要的发展战略之一，尝试推出了相关服务。

（二）大数据资源的安全性问题

丰富的原始数据可能涉及个人隐私和企业隐私，因此政府需要制定相应的法律法规来保证原始数据开采的安全性，企业和个人也应利用安全防护技术来保障自身数据的安全。许多大型公司的关键数据都是对外保密的，如阿里巴巴、百度、腾讯等。现如今，世界上许多国家已经建立了较完善的法律法规和行业指导规范，如德国，在2005年就开放数据接口，发布数据开放标准，并且早在1977年就已经颁布了德国联邦数据保护法律。在大数据概念出现之前，西方国家就已经有了很好的数据资源开发与利用模式，而且大多数是由政府主导的。

出于对网络安全、泄密风险等原因的担忧，数据拥有方会对开放各种数据有所疑虑，如何实现风险可控、权限可控的数据共享成为目前实行大数据治理与共享应用亟待解决的痛点问题。

（三）大数据资源的所有权问题

大数据在哪里？谁拥有大数据资源？这是大数据发展过程中必须回答的问题。目前大部分大数据资源掌握在大型企业或组织的手里：①互联网公司，如新浪微博、Facebook和Twitter等；②电子商务企业，如阿里巴巴、亚马逊和eBay等；③搜索引擎公司，如百度和谷歌等；④软硬件服务商，如IBM、苹果和微软等；⑤大型企业或公共部门，如沃尔玛、国家电网等。

目前，大数据主要掌握在大型企业或组织手中，而个人拥有的数据则相对较少。这就为个人利用大数据开展研究和应用带来了挑战。然而，这些企业或组织拥有的“大数据”是由大量“小数据”组成的，而“小数据”是由一个个用户产生的，如社交媒体上用户发布或交互的信息，用户网上购物的消费记录，使用搜索引擎的搜索记录和用户消费数据等。产品和服务提供商垄断所有用户产生的这些数据，对用户来说是不公平、不合理的，对于无法利用这些数据开展研究的研究人员来说也是不公平的。因此，通过有效的管理机制来界定大数据资源的所有权和使用权是至关重要的管理问题，解决大数据资源的所有权问题需要回答以下几方面的问题：谁应该享有大数据资源的所有权或使用权？哪些大数据资源应该由社会公众共享？如何有效管理共享的大数据资源，以实现在保障安全和隐私的同时，提高使用效率？

大数据背景下的数据所有权界定要比传统数据库环境下的产权界定问题复杂得多。对大数据进行分类是界定其所有权和使用权的重要方式之一。基于云计算中对不同类型“云”的划分思想，可以将大数据划分为私有大数据（Private Big Data）、公有大数据（Public Big Data）和混合大数据（Hybrid Big Data），各类大数据资源的简要描述如表1-2所示。

表1-2 不同类型大数据资源的简要描述

（四）大数据资源的产业链发展问题

大数据资源的完整产业链包括数据的采集、存储、挖掘、管理、交易、应用和服务等。大数据资源产业链的发展会促进原有相关产业的发展，如大数据对传统数据采集、存储和管理的软硬件设备要求更高，会促进数据采集、存储和管理的软硬件相关产业的进一步发展。

大数据资源产业链的发展还会催生新的产业，如大数据资源的交易会促使以大数据资源经营为主营业务的大数据资源中间商和供应商的出现。此外，还有可能出现以提供基于大数据的信息服务为主要经营业务的大数据信息服务提供商。如基于服务的云决策支持系统（DSS in cloud）将分析和大数据放到云端，这种决策支持系统服务会促进大数据与云计算交叉产业的形成和发展。

对大数据产业发展问题的研究是实现大数据潜在商业价值的重要环节，而大数据产业发展中面临着一系列比传统商业环境下更复杂的优化问题、决策问题、预测问题和评估问题，这些都是大数据产业发展中需要研究的重要管理问题。

三、大数据应用

随着大数据技术以及其他新一代信息技术的飞速发展，大数据应用已经融入制造、商务、医疗、能源和政府管理等行业，并对各个行业的运作模式产生了颠覆性的影响。

（一）大数据在制造领域的应用

随着大数据及其相关技术的不断发展，互联互通的理念改变了企业的运作模式和规则，使从事制造行业的企业边界日益模糊。大数据是制造业智能制造的基础，在制造业大规模定制中的应用包括数据采集、数据管理、订单管理、智能化制造、定制平台等。大数据能够帮助制造业企业提升营销的针对性，降低物流和库存的成本，减少生产资源投入的风险。利用这些大数据进行分析，将带来仓储、配送、销售效率的大幅提升和成本的大幅下降，并将极大地减少库存，优化供应链。同时，利用销售数据、产品的传感器数据和供应商数据库的数据等大数据，制造业企业可以准确地预测全球不同市场区域的商品需求，还可以跟踪库存和销售价格，节约大量的成本。

（二）大数据在商务领域的应用

近年来，大数据被广泛地应用于商务领域，尤其是在电子商务领域的蓬勃发展，已经成为社会发展的一种重要标志。借助大数据高效率的数据采集处理分析能力，电子商务的价值将被推向新的高峰。在大数据时代的电子商务，其经营模式由传统的管理化的运营模式变为以信息为主体的数据化运营模式，通过收集分析企业和消费者消费过程中的各项数据，利用大数据分析相关技术，挖掘潜在的商业价值，实现精准营销。在过去被认为是无用的数据资料将被重新赋予巨大价值。各电子商务企业利用数据信息，开发数据分析业务，提供数据可视化服务以及数据资源共享等，可扩展电子商务经营渠道，为企业增加效益。

（三）大数据在金融领域的应用

随着大数据、人工智能等新兴技术的快速发展，金融行业出现了大量新兴技术与传统金融行业深度融合的新金融模式，这在一定程度上激发了金融创新活力。大数据技术在金融行业的广泛应用，较好地支撑了我国金融行业的转型升级，促进了金融更好地服务实体经济，保障了金融市场的持续稳定发展。“金融云”的建设落地为大数据在金融行业的应用提供了良好的基础，金融交易数据与其他跨行业、跨领域数据的融合在不断增强，金融行业内外数据的融合、共享和开放正在成为商务数据分析发展的新趋势。大数据时代的商务数据分析在信用评价、风控管理、客户画像和精准营销等方面的成功应用，为金融行业的发展带来了新的机遇。

（四）大数据在医疗领域的应用

大数据对各个行业的发展产生了巨大影响，医疗业也不例外。健康医疗大数据是随着近几年数字化浪潮和信息现代化而出现的新名词，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的健康数据的集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。通过对医疗大数据的分析，能够发现许多有价值的医疗信息，不仅可以实现对流行疾病的爆发趋势的预测，也能够为患者提供更加便利的服务。医疗大数据将在临床辅助决策、疾病预测模型、个性化治疗等医疗服务领域发挥巨大作用。医疗大数据既有科研价值，也有产业价值，但应用这类数据的前提是确保病患隐私和信息安全。

（五）大数据在能源领域的应用

大数据在能源行业应用的前景也越来越广阔。能源大数据理念是将电力、石油、燃气等能源领域数据进行综合采集、处理、分析与应用的相关技术与思想。能源大数据不仅是大数据技术在能源领域的深入应用，也是能源生产、消费及相关技术革命与大数据理念的深度融合，能源大数据将加速推进能源产业发展及商业模式创新。随着能源行业科技化和信息化程度的加深，以及各种监测设备和智能传感器的普及，大量能源数据信息得以被收集并存储下来，这对构建实时且高效的综合能源管理系统至关重要，进而使得能源大数据能够发挥重要作用。另外，能源行业基础设施的建设和运营涉及大量工程和多个环节的海量信息，而大数据技术能够对海量信息进行分析，帮助提高能源设施利用效率，降低经济和环境成本。最终在实时监控能源动态的基础上，利用大数据预测模型，可以解决能源消费不合理的问题，促进传统能源管理模式变革，合理配置能源，提升能源预测能力等，将会为社会带来更多的价值。

（六）大数据在政府管理领域的应用

随着互联网的发展，不同组织、不同部门之间的联系愈加紧密，国家和社会之间的相互依赖性变得越来越强，传统政务向电子政务加速转型，实际上就是提高政府的工作效率，让有限的政务资源尽可能多地获得应有的政府管理效用。电子政务建立在信息化基础之上，也就意味着一个政府信息化程度越高，其电子政务就会越发达，转型的一个直接效果就是政府公共服务的效率提高，政府向民众提供的服务更加优质、更加高效。此外，大数据可以帮助政府与民众的沟通建立在科学的数据分析之上，优化公共服务流程，简化公共服务步骤，提升公共服务质量，发展国家经济，让百姓的生活更幸福。

第四节
大数据管理与应用的理论、技术和应用体系

大数据时代在具有云计算、人工智能、物联网等新的技术驱动力的同时，也面临着数据质量难以保证、数据价值密度低、系统架构及分析技术难等方面的挑战。为了更好地进行新一代信息技术的收集、管理和分析，利用大数据挖掘其中蕴含的价值信息，大数据管理与应用工作需要构建合理的理论、技术和应用体系。

一、大数据管理与应用的理论体系

大数据管理与应用的理论体系，以统计、领域知识和机器学习为基础和引领，同时依靠相应的存储、计算和网络平台，对内部和外部的各类大数据和信息进行采集、治理和分析，形成数据可视化展示，为相关人员提供支持，大数据管理与应用的理论体系结构如图1-4所示。

图1-4 大数据管理与应用的理论体系

统计、领域知识和机器学习理论引领大数据管理与应用的整体理论体系。大数据管理与应用往往需要结合三方面的资源——高质量的数据、领域业务知识和数据挖掘软件来进行数据挖掘，这需要依靠统计理论从大量数据中获取有业务价值的洞察力，继而结合相关管理和领域知识将这些业务洞察力以某种形式嵌入到流程中，从而达成目标。在这个过程中，利用机器学习的各种算法构建分析模型是核心步骤。除此之外，为了保证数据挖掘项目的成功实施，还有很多决定性因素，例如问题如何界定、数据如何选取、生成的模型如何嵌入到现有的业务流程中等问题都将直接影响数据挖掘是否能够获得成功。因此，大数据管理与应用的理论体系需要统计、领域知识和机器学习相关理论的引领。

数据分析流程是大数据管理与应用理论体系的核心部分。数据收集过程中，数据源会影响数据的质量和安全性。针对内部数据源和外部数据源，根据具体大数据分析任务进行数据选择，将不适用于数据分析工作的数据剔除，针对有用数据进行数据的采集和存储。在进行数据分析前需要对数据进行一定的预处理，数据预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容，可以极大提升数据的总体质量，是数据分析的重要前置工作。经过数据预处理后数据可以用于数据分析环节，深入业务场景分析，构建各类不同的数据分析模型，以提供新的数据洞察。最后将结果进行数据展示，数据分析结果具有丰富的呈现方案，包括角色看板、数据大屏等不同数据展示方式。除此之外，数据治理环节应当贯穿整个数据的采集、存储以及处理分析的整个过程。数据治理的最终目标是提升数据的价值，这是企业实现数字战略的基础，是一个管理体系。数据治理由企业数据治理部门发起并推行，包含关于如何制定和实施针对整个企业内部数据的商业应用和技术管理等一系列政策和流程。

大数据管理与应用流程需要依靠相应的计算平台、存储平台和网络平台。对于采集到的内部外部数据，需要构建合适的数据存储平台，实现数据的物理存储，为数据分析工作做好准备。数据分析过程中构建相应的模型和数据查询机制，并最终提供数据可视化结果，这需要依靠相应的数据计算平台和网络平台，利用大数据相关计算框架实现更加快速、高效的数据计算和处理展示。

二、大数据管理与应用的技术体系

大数据管理与应用的技术体系以数据资产为核心，包含问题理解、数据理解、数据处理、模型建立、模型评估和模型部署6个环节，如图1-5所示。大数据管理与应用过程是循环往复的探索过程，这6个步骤在实践中并不是按照直线顺序进行的，而是在实际执行过程中时常反复。例如在数据理解阶段发现现有的数据无法解决问题理解阶段提出的问题时，就需要回到问题理解阶段重新调整和界定问题；到了模型建立阶段发现数据无法满足建模的要求，则可能要重新回到数据处理过程上；到了模型评估阶段，当发现建模效果不理想的时候，也可能需要重新回到问题理解阶段审视问题的界定是否合理，是否需要做些调整。

图1-5 大数据管理与应用的技术体系

问题理解阶段主要完成对问题的界定，以及对资源的评估和组织，这一环节需要确定问题目标，同时需要做出形势评估并确定下一步数据挖掘目标，从而进一步制订项目计划。

数据理解阶段主要完成的是对数据资源的初步认识和清理，这一阶段需要收集原始数据并进行数据描述，进一步进行数据的探索性分析，最后对数据质量做出评估。

数据处理阶段主要完成在建立模型之前对数据的最后准备工作，包括选择数据并对数据进行清理，实现数据的重构和整合等工作内容。数据挖掘模型要求的数据是一张二维表，而在现实世界中，数据往往被存储在不同的数据库或者数据库中的不同数据表中。数据处理阶段将把这些数据集整合在一起，生成可以建立数据挖掘模型的数据集和数据集描述。

模型建立是大数据管理与应用技术体系的核心阶段，这一步骤将选择建模技术并对其进行评估，进而产生检验设计，最后完成模型参数的设定，建立模型并对模型的各参数做出调整。

模型评估是大数据管理与应用技术体系流程中非常重要的环节，这一步将直接决定模型是否达到了预期的效果，还是必须重新进行调整。模型评估可以分为两个部分：一个是技术层面，主要由建模人员从技术角度对模型效果进行评价；另一个是问题层面，主要由业务人员对模型关于现实问题的适用性进行评估。这一阶段主要进行的工作是筛选模型并回顾和查找疏漏，确定下一步工作内容。

模型部署阶段是将已经建立并通过评估的数据挖掘模型进行实际部署的过程。这一阶段将产生结果发布计划，建立对模型进行监测和维护的机制，生成最终的数据挖掘报告。最后进行项目回顾，总结项目中的经验教训，为以后的数据挖掘项目进行经验积累。

三、大数据管理与应用的应用体系

大数据管理与应用的应用体系同样是以数据资产为核心，包含问题理解、数据理解、数据处理、模型建立、模型评估和分析报告6个环节的循环往复的探索过程，如图1-6所示。大数据管理与应用中的应用体系与技术体系的主要区别在于每次循环最后阶段的工作内容，不同于技术体系需要进行模型部署，大数据管理与应用的应用体系在经过问题理解、数据理解、数据处理、模型建立、模型评估环节后，还需要完成分析报告这一项工作内容。

图1-6 大数据管理与应用的应用体系

分析报告阶段是运用大数据管理与应用的相关技术模型结果解决现实问题的过程，这一阶段将实现整个大数据管理与应用体系流程最终的价值，将生成最终的大数据分析报告以及报告演示。相关报告中蕴含的潜在知识和见解，将被用于改善决策水平，为以后的相关管理者提供支持和帮助。

第五节
应用案例

阿里巴巴数据委员会自建立以来，数据质量就成了该部门的核心工作，车品觉认为数据质量是大数据的命门，如果将大数据比作水流，来自任何支流的数据，如果质量有问题，都会带来整个水源的污染。由于淘宝等平台上的数据良莠不齐，存在不少虚假数据，会带来很大的干扰。有时，在淘宝平台上，对于一个人，我们会看到2部手机、1个iPad、3张信用卡、5个淘宝账号，收集数据时，以为是多个人，但实际上就是一个人。但如果依照这个数据，商家可能就将红包给了一个不活跃的账户。为此，阿里巴巴数据委员会试图剔除虚假的数据，让收集的数据能反映真实的消费情景。比如上面的案例，就要鉴定所有这些账户、信用卡等是否为同一个人所有。再如，阿里巴巴数据委员会经常要做产品界面测试，有时它会临时修改界面，会突然多出一个按钮，这就会带来大量误点击操作，数据收集时，就会得到很多失真的用户行为数据。阿里巴巴数据委员会的数据管理人员目前的工作就是要将这些失真的数据剔除，或者将数据还原到真实的场景。为了更好地管理和利用大数据资源，阿里巴巴数据委员会采取的具体措施如下。

打破分割 ， 统一数据标准 。统一数据标准，就是让净化后的数据流得以汇集。阿里巴巴下属各个部门业务重点不同，对数据的理解不同，因此数据标准往往各不相同。要将这些数据汇集成大数据之海，就必须统一标准，这也是阿里巴巴数据委员会目前重点推行的项目。

精细化管理数据 。“目前，我们需要的用户数据，平台还给不了。”阿里巴巴平台上的一个企业如是说。很多企业希望阿里巴巴能将用户属性的标签分得更细（不仅分男、女用户，还进一步按不同消费特点、收入细分）。小也化妆品创始人肖尚略认为，“平台数据的细分是基础，细分好，企业才能用好”。如何让数据精细化？阿里巴巴数据委员会根据各个商家的应用场景，将原始数据打上更细致、对商家更有参考价值的标签。以淘宝平台为例，一方面收集用户信息时，专注对商家更实用的内容，比如对于在外租房的大学生用户，除了收集他们的地址信息外，还会通过其他渠道收集其房租的租金，从而了解对方的消费水平，将这些数据提供给相应的商家。另一方面根据商家的应用情景，对数据材料做初加工。比如我们从中筛选出一个人是否戴眼镜，戴的眼镜是多少度的数据，就对卖眼镜的商家起到了很大作用。

在数据精细化思路下，2011年底，阿里巴巴的支付宝平台开发黄金策产品，车品觉带领团队处理了1亿多活跃的消费者数据后，筛选出500个变量，用它们来描述消费者，最终让企业能够随时调用变量，获得用户信息，比如某一类包含使用信用卡数量和手机型号等具体信息的客户数目。2013年，天猫开始研发适用于天猫商家的系统，通过对会员标签化，让商户了解店铺会员在天猫平台的所有购物行为特点。

收集更多的外部数据 。在阿里巴巴平台上，大多时候收集的是顾客的显性需求数据，如购买的商品和浏览等数据，但顾客在购买之前，就可能通过微博、论坛、导购网站等流露出隐性需求，所以仅仅做好自己的大数据是不够的，还要纳入更多外部数据。

阿里巴巴曾尝试通过收购掌握中国互联网的底层数据。2013年4月，阿里巴巴收购新浪微博18%的股权，获得了新浪微博几亿用户的数据足迹。5月，阿里巴巴收购高德软件28%股份，分享高德的地理位置、交通信息数据以及用户数据。其他的并购包括墨迹天气、友盟、美团、虾米、快的、UC浏览器等，阿里巴巴也从中获得了大量的数据。通过这些并购，阿里在试图拼出一份囊括互联网与移动互联网，涵盖用户生活方方面面的全景数据图。

加强数据安全管理 。淘宝卖家希望阿里巴巴能加大数据开放的步伐，对于阿里平台来说，这并不是一件容易的事情，因为这关乎商家和消费者的隐私，商家不希望竞争对手获得自己的机密信息，消费者也不希望被更多干扰。因此，阿里巴巴内部专门成立了一个小组，来判断数据的公开与否，把握“谁应该看什么，谁不应该看什么，谁看什么的时候只能看什么”。

◎ 思考与练习

1.大数据时代产生了哪些重要变革？如何理解这些重要变革？

2.结合自身经历，谈一谈大数据对生活的影响。

3.大数据的主要特征有哪些？

4.试述结构化数据、非结构化数据以及半结构化数据之间有哪些区别，并简单举例说明。

5.大数据的主要来源及产生方式有哪些？

6.大数据的管理目前面临哪些问题？

7.大数据作为一类特殊资源会为管理领域带来哪些挑战？

8.简述大数据管理与应用的理论、技术和应用体系。

◎ 本章扩展阅读

[1]托夫勒. 第三次浪潮[M]. 黄明坚，译.北京：中信出版股份有限公司，2018.

[2]迈尔-舍恩伯格，库克耶. 大数据时代：生活、工作与思维的大变革[M].盛杨燕，周涛，译.杭州：浙江人民出版社，2013.

[3]朝乐门. 数据科学[M]. 北京：清华大学出版社，2016.

[4]陈国青，吴刚，顾远东，等. 管理决策情境下大数据驱动的研究和应用挑战：范式转变与研究方向[J]. 管理科学学报，2018, 21(7):1-10.

[5]张佳乐，赵彦超，陈兵，等. 边缘计算数据安全与隐私保护研究综述[J]. 通信学报，2018, 39(3): 1-21.

[6]杨善林，周开乐. 大数据中的管理问题：基于大数据的资源观[J]. 管理科学学报，2015, 18(5): 1-8.

[7]蔡莉，梁宇，朱扬勇，等. 数据质量的历史沿革和发展趋势[J]. 计算机科学，2018, 45(4): 1-10.

[8]冯芷艳，郭迅华，曾大军，等. 大数据背景下商务管理研究若干前沿课题[J]. 管理科学学报，2013, 16(1): 1-9.

[9]张引，陈敏，廖小飞. 大数据应用的现状与展望[J]. 计算机研究与发展，2013, 50(2): 216-233.

[10]吴忠，丁绪武. 大数据时代下的管理模式创新[J]. 企业管理，2013(10): 35-37.

[11]朝乐门，卢小宾. 数据科学及其对信息科学的影响[J]. 情报学报，2017, 36(8):761-771.

[12]AGARWAL R，DHAR V.Big data，data science and analytics: the opportunity and challenge for IS research[J]. Information Systems Research，2014，25（3）：443-448.

[13]KARIMI J，KONSYNSKI B R.Globalization and information management strategies[J]. Journal of Management Information Systems，1991，7（4）：7-26.

[14]ISAAK J，HANNA M J.User Data Privacy:Facebook,cambridge analytica and privacy protection[J]. IEEE Computer Society，2018，51（8）：56-59.

第一章 绪论

第一节 大数据时代