大数据与政府统计发展最新章节_杨翰方著

第二节
大数据产生的技术背景

一、网络宽带急速发展

带宽是“频带宽度”的简称，原指通信线路和设备传送信号的范围，而在网络中说的就是数据传输率，一般用单位时间内传输的数据量衡量，常用的bit/s、Kbit/s、Mbit/s、KB/s、MB/s等单位说的即是带宽。在信息高速公路上，带宽可以简单理解成是道路宽度，带宽越大，数据传输也就越快。网络宽带（相对于窄带）指的是满足一定带宽数值的一种传输标准，宽带的发展具体体现在带宽的提升。

自2013年提出《“宽带中国”战略及实施方案》，中国宽带网络政策环境显著优化。《中国宽带发展白皮书（2018年）》指出，中国宽带网络实现了跨越式发展，固定宽带和移动宽带都在供给能力、下载速率、普及水平等方面显著增强，资费水平明显下降。

产业信息网数据显示，早在2016年，中国互联网普及率已经达到90%。中国宽带发展对互联网产业及实体产业的互联网化起到了支撑作用，为用户、企业等社会单位带来更好服务的同时，也为数据的传输铺就了一条金光大道。

二、智能终端全面普及

2007年苹果公司发布了划时代意义的iPhone，手机从功能机时代来到智能机时代。以智能终端为代表的基础设备在近十年来飞速普及，为数据的产生和应用奠定了基础。智能终端主要表现为智能手机、平板电脑、智能手表及其他可穿戴设备，越来越多的非智能化设备也逐渐进行了智能化改造。

智能终端依靠触屏体验、独立的操作系统、高性能的处理器等优良要素得到了用户的认可。经过数年的市场竞争，智能手机越来越便宜，智能手机普及率水涨船高。

发展离不开软件产品的开发，二者是相辅相成的。搭载的软件应用灵活拓展了基础设备的功能，是其长久生命力的源泉所在。表面上是人们购买了相应的硬件，实际上人们想要使用的是基于硬件之上的软件服务。

除了上述开放式服务，普及智能终端的另一利器是交互性，体现在与网络前端、与其他智能终端等多个方面，主要靠互联网接入和输出实现。所以说，带宽的增加为其交互性插上了翅膀，使用户获得了更好的体验，这进一步刺激了智能终端市场的发展。

三、有了硬件和软件的支持不足以产生大数据

（一）数据存储

朱熹有诗云：“问渠那得清如许，为有源头活水来。”软硬件的支持只能说是铺设了优良的管道，用户数据才是流淌其中的活水。以往数据多以二维结构出现，而今各种智能终端带来了难以计数的视频、图片、音频、邮件、HTML、GPS和传感器数据等半结构化、非结构化的数据，并以指数级方式增长。

数据常被人们认为是人类通过观察、统计、实验、总结出的数字，其实这只是狭义上的数据。抽象来看，数据主要指人类可识别的对客观存在的记录，涉及面十分广泛，包含文字、数字、图像、视频、音频等人类文明中存储的信息介质。举个详细的例子，外在世界通过各种感官收集、经验传授、自然习得等方式作用于人脑，人类的大脑记忆的是这个个体对外在世界的主观反映，这为个体后期的汇总、加工、积累和创造打下基础。那么，存储数据有什么用呢？首先，最重要的是数据实现了时间漂移，实现“历史重现”。假如没有存储数据，就像一个时时失忆的人，所能获得的新信息只能是当下这一瞬所产生的，既无历史的积累，也无未来的展望。其次，数据存储的物质性极大拓展了数据的应用场景。数据的存储不得不依赖于客观的物质基础，例如纸张、磁盘、软盘等信息存储介质，人类人脑的主观信息由此迁移到客观世界，继而为实现信息共享、复制、编辑提供了可能条件。

存储是影响计算机性能的关键因素，是数据应用的重要载体。大数据存储系统对数据存储提出了诸多要求，例如高可用、低成本、高速度和低开销，上述要求的优先级依次降低（即高可用>低成本>高速度>低开销）。大数据存储的重要问题是，在保证数据高可用的条件下，实现存储容量（反映的是成本、速度、开销等问题）的最小化。大数据指数级增长，既给数据存储带来了挑战，也带来了机遇，众多关键技术应运而生，在本书“大数据技术”相关章节将会介绍。

智能终端的普及和网络带宽的发展带来的是数据流的增加，体现的是数据的动态特征。就像流水一样，假如只有流量没有静态的数据存量（此处的静态是相对的，并不是说数据没有变化），那么大数据也只是昙花一现而成不了气候。当流量跑起来时，配套的数据存储技术随之发展，存储数据成本长期来看呈降低趋势，大数据才有立足之本。

（二）数据存储技术发展——非关系型数据库

在过去的几十年中，关系数据库和结构化数据管理技术被广泛使用。大数据时代到来，对数据库带来了快速检索、实时处理和大容量解释的新挑战。数据来源复杂，数据结构转向无模式化，存储模式频繁更改等趋势使得传统的关系数据库不适合存储。将数据结构转换为关系数据模型、严格定义的关系模式以及简单任务过程的复杂性是关系数据库的基本特征，这是无法适用于大数据存储的。为动态增长的数据提供高度可扩展、可靠和高效的存储策略是大数据存储工具的主要目标，高效的分布式存储机制应运而生。NoSQL（不仅是SQL）技术引入了灵活的数据模型、水平扩展性和无模式数据模型，提供了水平可伸缩、灵活、高可用、可访问和相对便宜的存储解决方案。NoSQL数据库在实现一致性、容错性、可用性和对查询的支持方面表现出色，同时还保持着关系数据库的一些良好特性：可伸缩性、可用性、容错性、一致性和辅助索引。这些数据库旨在为大容量数据的可扩展性和管理提供便利。

Bigtable是Google公司（Google Inc.）开发的产品，是一个分布式的结构化数据存储系统，Bigtable的设计目的是可靠的处理PB级别的数据，并且能够部署到上千台机器上。Bigtable是建立在其他几个Google基础构件上的。BigTable使用Google的分布式文件系统存储日志文件和数据文件。BigTable内部存储数据的文件是Google SSTable格式的。BigTable还依赖一个高可用的、序列化的分布式锁服务组件，叫作Chubby。Bigtable使用Chubby完成以下的5个任务：确保在任何给定的时间内最多只有一个活动的Master副本；存储BigTable数据的自引导指令的位置；查找Tablet服务器，以及在Tablet服务器失效时进行善后；存储BigTable的模式信息；存储访问控制列表。Bigtable是一个稀疏的、分布式的、持久化存储的多维度排序Map5。Map的索引是行关键字、列关键字以及时间戳；Map中的每个value都是一个未经解析的byte数组。行名是一个反向URL。列族存放的是网页的内容、该网页的锚链接、主页引用等内容。每个链接只有一个版本；而网页内容可能有多个版本，用时间戳对不同版本进行标识。Bigtable和关系数据库很类似，使用了很多关系数据库的实现策略，但是Bigtable提供了一个和这些系统完全不同的接口，使得Bigtable不支持完整的关系数据模型，在非关系型数据的存储上也有良好的表现。

Bigtable提供了建立和删除表以及列族的API函数，修改集群、表和列族的元数据的API，比如修改访问权限。Bigtable为客户提供了简单的数据模型，利用这个模型，客户可以动态控制数据的分布和格式；用户也可以自己推测底层存储数据的位置相关性。

Bigtable已经在超过60个Google的产品和项目上得到了应用，包括Google Analytics、Google Finance、Orkut、Personalized Search、Writely和Google Earth。这些产品对Bigtable提出了迥异的需求，有的需要高吞吐量的批处理，有的则需要及时响应，快速返回数据给最终用户。它们使用的Bigtable集群的配置也有很大的差异，有的集群只有几台服务器，而有的则需要上千台服务器、存储几百TB的数据。针对Google的这些产品，Bigtable还是成功的提供了一个灵活的、高性能、高可用、可扩展的解决方案。

四、计算能力逐步跃升——云计算

数据规模随着数据采集和数据存储的不断增加，对数据的存量抑或流量处理都已经难以由单台计算机完成，不得不采用多台计算机共同分配计算任务的方式，也就是分布式计算，具体包括与存储系统的对接、计算任务分配、数据的传入传出、数据安全等实际情况。

大数据计算框架在批处理、流式计算、交互式分析、增量计算方面实现了巨大发展。Hadoop在批处理技术（分布式计算）方面成为业内标杆，形成了较为完整的生态圈；业界使用的DAG（有向无环图）计算模型更灵活地表达了各种复杂的依赖关系，提升了执行效率。流式计算框架使得源源不断产生的动态数据能够在短时间内得到处理，避免拥堵、遗漏或者重复等问题。交互式分析让数据分析人员得以使用类似SQL的语言进行交互式查询，为数据分析带来了便利性。增量计算框架处理的是数据新增或周期性更新的问题，只对部分新数据进行计算，从而极大地提高了计算效率。

如前所述，将大数据比喻成流水，智能采集是流水的源头，网络带宽是管道，存储技术是蓄水池，计算能力即是处理流水的能力。大数据计算能力的发展为数据应用插上了翅膀，为大数据实现从数据本身到数据价值的惊险一跃创造了可能。可以说，大数据有了计算能力的加持，才能如虎添翼。

随着宽带和无线网络的普及、存储成本的下降以及互联网计算软件的逐步改进，将计算和数据从台式机和便携式PC转移到大型数据中心成为21世纪的新趋势。用户将通过轻型便携式设备访问互联网服务，而不是通过传统台式PC，用户不用关心数据计算，计算能力由云计算提供。近年来随着大数据及人工智能的突破性进展，被称为“ABC”的“人工智能+大数据+云计算”模式将在企业、行业及整个国家和世界发展中起到举足轻重的作用。其中云计算是大数据技术和人工智能的保障，没有高速的运算，大数据的价值就无法被开发，人工智能技术也无用武之地。

早在20世纪60年代，美国斯坦福大学教授、计算机科学家John McCarthy提出把计算机的计算能力作为一种像自来水、电力一样的公共事业产品提供给用户的理念，这成为云计算的起源。2006年8月，时任Google CEO的埃里克·施密特（Eric Schmidt）首次将云计算（Cloud Computing）的概念引入人们视野。国内比较权威的是工业和信息化部电信研究院出版的《云计算白皮书（2012年）》中给出的定义，即“云计算是一种通过网络统一组织和灵活调用各种ICT（信息和通信技术）信息资源、实现大规模计算的信息处理方式”。也就是说云计算是一种革新的基于互联网的计算方式，通过这种方式共享的软硬件资源和信息可以按需提供给用户的计算机和其他设备，而对于用户来说看到的只有服务本身，不用关心相关基础设施的具体实现。目前，云计算基础设施和服务的主要技术基础包括虚拟化、面向服务的软件、网格计算技术、大型设施管理和能效。

当前中国云计算市场有腾讯云、阿里云、百度云、金山云、京东云等，市场份额呈“一超多强”格局，阿里云一直保持市场领军位置。阿里云创立于2009年，是全球领先的云计算及人工智能科技公司，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。2014年，阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击，峰值流量达到每秒453.8Gb。在Sort Benchmark 2015，阿里云利用自研的分布式计算平台ODPS，377秒完成100TB数据排序，刷新了Apache Spark 1406秒的世界纪录。

阿里云认为，计算的终极意义是发挥数字的力量，去解决问题、创造价值，让数字不止于数字。云计算就是使用分布式的方法，针对海量数据大计算的一种解决方案。阿里云的品牌口号——“为了无法计算的价值”（Creating value beyond computing.），深入地阐释了阿里云的品牌定位及品牌价值。如果没有计算能力，就谈不上大数据的时代，谈不上海量数据的高效应用。