云计算与政府治理能力现代化：以黔西南州为例最新章节_毛善君著

第三节
技术基础：大数据思维及技术

云政府的本质是政务资源的云化治理，是社会治理的基础设施平台，是一种理想的政府治理模式。但是，在传统信息技术时代，云政府的建立尝试必定不会成功。一方面是从物理组织结构层面构建云政府的代价高昂，阻力巨大且调整配置不灵活，很难频繁进行。更重要的是缺乏云政府建立的现代信息技术基础，在面对海量的资源管理和分析的时候，传统信息技术能力不足，无法达成资源配置优化的治理目标。大数据思维及技术的出现和成熟，为云政府的建立和运行奠定了基础。

一、大数据的概念和特点

自2008年《自然》杂志出版“Big Data”专辑，首次提出大数据（big data）的概念以来，经历了基础技术的兴起和发展、产业生态的构建，大数据思维和技术正逐步渗透到每个企业的数据化战略之中，渗透到整个社会的发展演变当中（梁锋，2013）。

1.大数据萌芽期

自20世纪90年代至21世纪初，随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识的管理技术也开始得到应用，比如数据仓库，知识管理和专家系统等（潘璠，2014）。

2.大数据成熟期

21世纪的前十年，Web2.0应用的迅猛发展和非结构化数据的大量产生，使得传统的处理方法已经难以应对，大数据技术快速突破，大数据的解决方案也逐渐走向成熟。大数据在成熟期形成了并行计算与分布式系统两大核心技术。谷歌的GFS和MapReduce等大数据技术受到追捧，开源Hadoop平台大行其道（潘璠，2014）。

3.大数据大规模应用期

2010年以后，大数据开始广泛用到各行各业。人们开始用数据来驱动决策，社会的信息化、智能化程度大幅提高（潘璠，2014）。

（一）大数据概念

大数据的概念众说纷纭，到目前为止，还没有一个明确的统一定义，不同组织机构对大数据有着不同的描述。

麦肯锡认为，大数据是指大小超出了典型数据库软件的采集存储管理和分析等能力的数据集，一般范围是从几个TB（1TB=1024GB）到几个PB（1PB=1024TB）（唐雪飞，2013）。

维基百科的定义是：无法在一定时间内使用常规的软件工具，对其内容进行抓取管理和处理的大量而复杂的数据集合（何宝宏，魏凯，2014）。

美国国家标准技术研究院的定义是：数量大，获取速度快，或者是形态多样的数据，难以使用传统的关系型数据分析方法进行有效的分析，或者需要大规模的水平扩展才能高效处理的数据形态。

Gartner公司认为，大数据是一种体量大、快速和多样化的信息资产，需要使用高效率和创新型的信息技术加以处理，来提高发现洞察、做出决策和优化流程的能力（梁锋，2013；姜奇平，2013）。

不论哪一种定义，都描述了大数据的基本特征（4V）（孟小峰，慈祥，2013）。

（二）大数据的基本特征

大数据是无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合，其特征不仅仅是体量巨大。大数据基本特征表现为4V（Volume、Variety、Value和Velocity），即体量大、多样性、价值密度低、速度快（孟小峰，慈祥，2013）。

① 数据体量巨大。从TB级别，跃升到PB级别、EB级别或ZB级别。

② 数据类型繁多。包括结构化、半结构化、非结构化的数据库、文本、网络日志、视频、图片和地理位置信息等，多类型的数据对数据的处理能力提出了更高的要求。

③ 价值密度低。随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，例如在连续监控视频中，有用的数据可能仅仅有一两秒。如何通过强大的算法迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。

④ 处理速度快。主要体现在实时分析，实时呈现分析结果。

既有的技术架构和路线，无法高效处理和分析如此海量的数据。大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

二、大数据分析

大数据最重要的目标是对大数据进行多方面的分析挖掘，只有分析才能获取智能、深入和有价值的信息。

（一）可视化分析

大数据的海量信息如何展示和探索分析，是理解大数据、分析大数据的基础（陈明，2014）。大数据可视化是指将海量的数据以特定的视觉形式呈现出来，如图表或地图，以帮助人们了解这些数据的意义。大数据可视化需要同时结合科学、设计和艺术多个学科，核心目标是清晰地叙述和艺术化地呈现，最终帮助用户理解数据和做出决策。

（二）广义知识描述

广义知识描述，又称描述型数据挖掘，是以简洁概述的方式表达数据中存在的一些有意义的性质（冯新民，王建冬，2008）。面对大量细节性数据，用户却常常想要得到能以简洁描述性方式所提供的概要性总结，这样的数据摘要能够提供一类数据的整体情况描述，或与其他类别数据相比较的有关情况的整体描述，如用户画像，描述性统计等。

此外，用户通常希望能轻松灵活地获得从不同角度和分析细度对数据所进行的描述。例如，按地理位置对安全隐患或者事故发生的频率、性质、损失等情况进行更高层次的研究分析，这是一种多维多层次的数据泛化分析，采用的模型是数据立方体。

通过数据立方体进行多维数据分析，又称OLAP（联机分析处理，On-Line Analytical Processing），是在数据立方体中存放着预先对部分或所有属性维的聚合计算结果（如SUM、COUNT、AVERAGE），通过上卷汇总（roll-up）、下钻细分（drill-down）等操作完成数据泛化和细化。

（三）关联规则挖掘

关联规则是反映一个事件和其他事件之间依赖或相互关联的知识，如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测（蔡伟杰等，2001）。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识，例如哪些安全隐患或者事故会伴随发生。

① 给定事务数据库，每个事务是同时同地发生的一组安全隐患或者事故。

② 要求找到所有的规则，这些规则能够表明这些类型的安全隐患或者事故与另一些类型的安全隐患或者事故相关。

（四）分类和聚类

分类和聚类，是把给定的数据根据相似性和差异性划分到一定的类别中。其中，分类是在给定类别标记的情况下进行数据类别划分，又称有监督分类；聚类是在没有类别标记的情况下进行数据划分，又称无监督分类。

分类过程，首先在已知训练数据集上，根据属性特征，为每一类找到一个合理的描述或模型，即分类规则。然后，根据规则对新数据进行分类。

例如，根据企业历史和现状的安全生产情况、安全隐患和事故发生情况，利用分类数据挖掘技术对企业进行诚信体系评级和监管强度分级。分类规则挖掘的常用方法有：决策树、贝叶斯分类、人工神经网络、粗糙集等。

（五）预测型数据挖掘

预测型数据挖掘，是根据时间序列型数据，即历史和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识挖掘（钱爱玲，2011）。预测的目的是从历史数据中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。分类和回归是两类主要预测手段。其中分类是预测离散或标称值，而回归用于预测连续或有序值。

回归统计建模方法，包括线性回归、多元回归、非线性回归、自回归滑动平均ARMA、时空ARMA以及其他回归方法等。

（六）偏差型数据挖掘

偏差型数据挖掘，是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例，数据聚类外的离群值等。偏差即异常，在数据挖掘中也称其为孤立点。孤立点探测和分析是数据挖掘中的重要任务。

偏差型数据挖掘的基本思路是寻找观测结果与参照值之间有意义的差别。例如最常用的异常探测，探测既不属于聚类，也不属于背景噪声的点（称为异常），其行为与正常样本行为有很大不同。典型的异常探测方法，包括基于统计的方法、基于距离的方法、基于偏离的方法等。

三、大数据技术

大数据技术（林子雨，2013）是指从各种各样类型的巨量数据中，快速获得有价值信息的技术。包括采集数据的工具、平台和数据分析系统。大数据研究的目的是发展大数据技术并将其应用到相关领域，通过解决巨量数据处理问题促进其突破性发展。

① 数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换和集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

② 数据存取：关系数据库、NOSQL等。

③ 基础架构：云存储、分布式文件存储、Hadoop、Spark、Storm、Flink。

④ 统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术，等等。

⑤ 数据挖掘：分类（classification）、估计（estimation）、预测（prediction）、相关性分组或关联规则（affinity grouping or association rules）、聚类（clustering）、描述和可视化（descrip-tion and visualization）、复杂数据类型挖掘（Text、Web、图形图像、视频和音频等）。

⑥ 模型预测：预测模型、机器学习、建模仿真。

⑦ 数据可视化：标签云、关系图等。

四、大数据应用

大数据是比较抽象的概念，依托于互联网和云计算的发展，大数据在各行各业发挥的价值越来越大（林子雨，2013；孙勤红，沈凤仙，2016），例如大数据+政府、大数据+金融、大数据+智慧城市、大数据+传统企业数字化转型、大数据+教育、大数据+交通等。

1.对大数据的处理分析正成为新一代信息技术融合应用的联结点

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。云计算为这些海量和多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到相关应用中，将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量，需要严谨的数据治理、富有洞见和有效的数据分析以及激发管理创新的环境。

2.大数据是信息产业持续高速增长的新引擎

面向大数据市场的新技术、新产品、新服务和新业态会不断涌现。在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

3.大数据应用将成为提高核心竞争力的关键因素

各行各业的决策正在从“业务驱动”转变为“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对；可以为商家制订更加精准有效的营销策略提供决策支持；可以帮助企业为消费者提供更加及时和个性化的服务；在医疗领域，可提高诊断准确性和药物有效性；在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

4.大数据时代科学研究的方法手段将发生重大改变

例如，抽样调查是社会科学的基本研究方法。在大数据时代，可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。

五、大数据思维

大数据除了带来技术和工具上的提升之外，更多的是思维和观念上的颠覆性转变。《大数据时代》一书作者维克托认为，大数据时代有三大转变（邬贺铨，2015）：

（1）我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。

（2）研究数据如此之多，以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度，将带来更好的洞察力和更大的商业利益。

（3）不再热衷于寻找因果关系，而是事物之间的相关关系。例如，不去探究机票价格变动的原因，但是关注买机票的最佳时机。大数据打破了企业传统数据的边界，改变了过去商业智能仅仅依靠企业内部业务数据的局面，而大数据则使数据来源更加多样化，不仅包括企业内部数据，也包括企业外部数据，尤其是和消费者相关的数据。

（一）不是随机样本，而是全体数据

在过去，一方面，由于技术、经济和人力等多个层面的限制，我们探索客观规律的时候，主要是依靠抽样数据或片面数据。所以就会导致有很多小概率事件覆盖不到，容易出现黑天鹅事件。甚至有些时候我们都不是基于实证检验，而只是凭借经验、假设和价值观，就对客观规律做出了总结。这就导致过去很多时候，人类对于客观世界的认知是肤浅的、表面的，甚至是错误的。另一方面，过去我们对于客观规律的探究，出发点和探究的维度都较为“狭隘”。比如我们想分析某商业机构的发展前景，可能过去的分析素材只集中在商业、宏观政策等这些与我们的分析对象有着潜在的或较为明显的因果关系的相关事物上。但是大数据的分析对象会更广、更杂、更全面。可能对于这一商业机构的分析素材还会包括天气变化、“90后”消费倾向、某市人们点外卖的习惯等这些“看上去”可能和分析目的没有什么联系的“无关因素”。但是通过大数据的分析，会发现很多我们可能无法马上理解和接受的两种事物之间的相关关系。比如：男性用户买尿布的时候喜欢顺带买啤酒，通过分析词汇检索可以预测到流感传播，咖啡与信用卡或房贷有强相关关系等。随着信息技术的发展，我们获取数据变得更便捷、渠道更多、也更迅速、更具时效性，来自互联网的海量数据可以为我们所用。因此我们对某个对象的分析不再是抽样调查，而是能覆盖这个对象全体，可以全方位、多维度地对其进行分析。由此既消除了小概率事件的不确定性，又能够在对事物的分析中发现更多的可能性和相关性。总体而言，大数据的“量变”引发了人类进行分析和思考的核心层面上的“质变”。大数据的简单算法比小数据的复杂算法更有效，随着数据量的提升，获得的结论和答案的精准度也会逐渐提升。

（二）不是精确性，而是混杂性

在庞大的数据体量面前，每一个小的数据的精确性可以变得不是那么的重要，庞大的数量可以消除或极大地稀释那些不准确的部分。如发100份调查问卷，如果里面有5个人是胡乱回答的，就会极大地影响我们的调查结果。但如果发了10万份调查问卷，那么即便是有50个人随便填写，也不会对最终结果有太大的影响。同时，那些看上去混杂无章的数据，可以将原来看似无关的维度联系起来。我们对这些不同维度的信息进行挖掘、加工和整理，就能够获得有价值的统计规律。因此，在这个时候，数据的混杂性反而成为大数据的优势，通过对不同维度数据的分析，使这些维度开始出现相互交叉，数据之间的关联性获得了极大的增强，我们也因此能够获得更多的新的规律。

（三）不是因果关系，而是相关关系

这个特征应该是最为人所诟病的了。甚至《大数据时代》这本书的译者周涛在这本书的“序”中就直接表明了对这一点的不认可。但事实上，因果关系和相关关系其实本质上并没有什么区别。“相关关系只是还没有被理解的、复杂的因果关系。”因果律是最基本、最底层的逻辑规律。但只是过去人们习惯了对因果律的“简化”理解——人们绝大多数时候提到因果关系其实都只是在说“单因果关系”。问题是世界上万事万物之间的联系是很复杂的，现实情况下的因果关系通常都是“多因果关系”，也就是事物之间的相互作用是多因多果的。我们无法分析清楚复杂的、非线性的因果关系，故而将这些多因果关系称为“相关关系”。大数据提倡关注“相关关系”，关注“是什么”而不是“为什么”，这并非是对因果关系的否定，反而是对客观世界真相的承认与接纳——承认世界是复杂和联系紧密的。同时也是站在一个更实用的立场上，专注于具体问题的解决或做出更优的决策。大数据并不是说因果关系不重要，而是说实用性才是最重要的。

六、大数据与政府治理

大数据先进的理念、技术和资源为政府的社会治理创新提供了广阔空间与可行路径。大数据之于社会治理，其核心在于运用大数据理念和意识创新决策机制，实现“数据驱动决策”“引导政府前进的将是基于实证的事实，而不是意识形态，也不是利益集团在政府决策过程中施加的影响”（王林霞，2019）。

（一）大数据有助于实现多元共治治理结构

大数据时代，流动、共享、开放、包容的数据特性及网络信息技术广泛便捷的实用性，打开了政府各部门、政府与公众、政府与市场之间的边界。一方面，大数据技术的应用，使每个人都成为数据的生成者、使用者及所有者，人人都可以发声，都拥有话语权，越来越多的社会成员通过各种数据平台表达自身诉求，讨论和评价社会现象、公共问题，提升了参与意识和参政议政能力，重置了社会治理权力。另一方面，大数据时代，各种数据资源可以突破时空的限制，从更深层次、更广领域促进政府与民众的互动，政府通过大数据可以获取更多公众的诉求，增加与公众、组织的沟通与合作，吸引他们或积极参与公共事务决策，或投身于公共服务产品的研发、生产和供给，激活协同发展的合力，提升治理的回应性，从而形成网络状、实时化、多维度的政府主导、公众参与和多元协同治理的良性治理格局，去中心化的多元共治治理愿景路径更为明晰。

（二）大数据有助于实现精准、个性和多元公共服务供给模式

长期以来，政府公共服务的供给是自上而下、单向度的，追求一体化、广覆盖、“一刀切”，公共服务需求和供给回应性差、结构性错位、高成本、低效率，难以满足公众多样化、差异化的服务需求。随着经济社会的不断发展，公众对政府公共服务的广度和深度提出了更多的新需求，促使政府公共服务模式创新（李晓，2015）。

大数据时代，政府可通过数据工具和互联网、智能终端等设备及数据对比和分析模型等技术，对各地区、各领域和各层次的公共服务需求以及公共服务资源拥有率和使用率等数据进行高效采集、深入分析挖掘，通过数据的对比和碰撞，主动感知和预测公众的各类服务需求、服务体验和对公共服务质量的评价，及时了解公众需求热点，迅速找到公共服务供给的盲区及薄弱环节，明确公共服务资源重点倾斜人群和区域，从而优化服务资源配置，改进服务方式，完善服务内容，让公众、市场参与到公共服务产品设计、提供和监督等各个环节，打破了公共物品由政府垄断供给的局面，使公共服务从“被动提供”转向“主动提供”、从“供给导向”转向“需求导向”、从重“服务覆盖”转向重“服务体验”，为社会成员提供精准、个性、多元、公平普惠及优质高效的公共服务。

（三）大数据有助于实现无缝化政府权力监管

随着大数据技术的发展和应用水平的提升，政府权力运行的每一个环节、每一个领域都可以实现数据化，权力运行过程产生的所有数据都可记录、可追溯和可查询。一方面，通过政务数据共享，增加权力运行的透明度，拓展权力监督的时空界限，实现对权力运行过程合理性、合规性评估审查，减少权力寻租空间，让权力的边界更加清晰。另一方面，通过对不同来源的数据进行有效的关联融合、挖掘分析，可以发现各类不作为、乱作为及腐败行为发生的概率和蛛丝马迹，从而形成无缝化的数据“铁笼”，实现权力监督规范化、常态化、全覆盖、无禁区和零容忍，促使政府自觉规范和约束权力运行，提升政府效能和治理能力。同时，通过数据开放与共享，社会公众也因此有了更多的知情权，便于他们对权力寻租空间大的热点领域进行监督（王林霞，2019）。

（四）大数据有助于实现科学决策机制

大数据驱动政府由“经验”决策向“智慧”决策转型。传统的决策机制大都依靠抽样数据、局部数据，遵循基于决策对象的局部“现实”和少部分的需求来推演、判断大多数人的现实以及未来需求的决策思路，决策依据的信息不全，不管抽样方法如何科学，样本的“代表性”如何高，都会存在一定的随机性和偶然性。而且，传统决策往往依靠过去事实和经验理性及领导者个人的专业素养和有限理性，公众参与度低，容易导致决策失误率高、滞后性严重和透明度低。而大数据的客观性、全面性、易获取性和分析技术的高效性可以弥补上述不足。首先，大数据的“全样本性”使政府决策的依据从少量的“样本数据”转变为海量、动态、多样的“全体数据”，既能从整体上把握研究对象，又能充分关注细节，通过对尽可能全的数据进行综合分析处理，精准判断决策过程的“痛点”“难点”“盲点”，深度挖掘隐藏在数据之间的规律性结论，从而做到科学决策。其次，大数据所蕴含的关联思维和分析方法，可以充分挖掘跨区域、跨界别、跨平台的海量数据之间的相关关系，将高度分散的信息碎片，整合成具有完整参考价值的决策信息，由此预测事件发展趋势，找出解决复杂问题的新思路。

第三节 技术基础：大数据思维及技术