随着信息科技时代的不断发展,以互联网为代表的各类电子通信设备广泛地应用于人类的工作和生活,人们无论是使用传统的电脑,还是各式各样的手持终端,其实质都是在进行各种各样的数据交换。人们在数据交换的过程中完成了与世界的互联,却也留下了使用痕迹,这些痕迹蕴含了规模惊人的海量数据信息,并且这些数据的产生丝毫不受时间、地点的限制。量变的累积引发了信息数据形态的变革,出现了非关系型数据库技术,打破了传统数据库要求以表格形式整齐排列的存储模式,从而使云计算、分布式处理技术、非结构化存储技术等智能化应用技术广泛应用于社会经济生活的各个领域,由此诞生了“大数据”的理念。
1.大数据的概念
大数据是一个抽象的概念,一般来说,大数据是指需要新处理模式才能具有更强决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。维克托·迈尔-舍恩伯格及肯尼思·库克耶在编写的《大数据时代》中将大数据描述为:“大数据不采用抽样调查的方式筛选数据,而是对所有数据进行分析处理。” 有人认为大数据不仅仅在于其数据规模之“大”,也在于数据的采集、储存、维护、分析、挖掘、共享等方面赋予大数据功能之“大”,更在于应用在各个方面、各个领域的大数据应用范围之“大”。
大数据可以为我们带来新理念、新价值,带来“大发展”,其内涵和外延已远远超越了“海量数据”的概念,它是以容量大、类型多、速度快、价值高为主要特征的数据集合,通过对数量巨大、结构混杂、类型多样的数据进行采集、存储和系统相关分析,让数据“发声”,使决策者具有更高的洞察力、预测力,发现新知识、提升新能力、创造新价值,实现数据的“增值”利用。从某种意义上说,大数据是互联网信息技术和新服务业态的深度融合,大数据理念和技术的迅猛发展和广泛运用正在推动时代变革。
2.大数据的特征
如今的“大数据”一词已不仅仅代表着数据的规模,也代表着信息技术发展到了一个新的时代,代表着海量数据处理所需要的新的技术和方法,也代表着大数据应用所带来的新服务和新价值。相比于传统数据处理,大数据具有以下“4V”的特点:
(1)数据规模大(Volume):从TB级别跃升到PB级别乃至EB级别的规模。
(2)数据多样性(Variety):数据的类型繁多,相对于以往结构化数据而言,非结构化数据急剧增长,如音频、视频、图片等,这些对大数据技术提出了更高的要求。
(3)数据处理快速化(Velocity):在数据海量化与可变性的特征下,数据处理效率是提高竞争力的关键,大数据处理与云计算等技术紧密相连,要求从各类数据中快速获得有价值的信息,这也是大数据与传统数据挖掘最明显的区别。
(4)深度价值(Value):大数据蕴含很多深度的价值,需要对大数据进行分析,并挖掘出其巨大的数据价值。
大数据的战略意义在于对数据进行专业化处理,通过数据“加工”,实现数据“增值”,让数据“发声”。以云计算、分布式处理技术、非结构化存储技术为代表的技术手段是体现大数据价值的基础,它所具有的洞察力、预测力及其“万物相关”的认知正在逐渐被认可。相比小数据或样本数据时代,大数据的思维变革可以从关注全集数据、关注数据混杂性和关注相关关系三个方面阐述(如图1-1所示)。
图1-1 大数据时代的思维变革
1.从样本思维转向总体思维
19世纪以来,当面临大样本量时,统计学主要依靠抽样来分析总体。但是,统计抽样是在技术受限的特定时期产生的,海量数据背景下,数据处理技术发生了革命性的改变,方法和思维同样需要做出调整。大数据时代开启了全数据模式,即“样本=总体”。与抽样分析相比,大数据分析的优势在于:一是信息准确,用最低成本最大限度提高了在微观层面分析的准确性;二是挖掘细节,可以捕捉到正态分布外的细节信息,从而可以得出预设外的新观点;三是即时记录,可以在第一时间获取异常值。
2.从精确思维转向容错思维
对于小规模数据而言,最基本的要求就是减少错误、保证数据质量。由于收集的数据数量少,样本信息的偏差对分析结果有着绝对的影响,所以必须确保记录下来的数据尽量结构化、精确化。与此相对应,大数据通常用概率说话,当我们试图扩大数据规模的时候,也要接受大数据的“混乱”,我们的分析对象不仅包括结构化数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。大数据的混杂性表现在:一是数据来源广泛且不进行审核,无法保证每一条数据的精确性;二是半结构化、非结构化数据的出现,无法预先设定记录结构,不要求数据的整齐排列。
在大数据思维下,越是混杂的数据越具有挖掘和分析的潜力。传统的关系数据库需要进行仔细策划,按照索引将搜集到的数据分门别类存储使用,而无法分类的数据被自动筛除,这也使得研究的视野局限在可以分析和能够确定的数据上,缺少了对于整体的理解和把握。相比严格的精确性,允许数据冗杂能够换取时间和空间上的优势,能够快速获知事物的全貌和发展脉络。
3.从因果思维转向相关思维
因果思维旨在解释事物的内部运作机制,即“为什么”;相关思维通过识别两者之间的关联来分析和预测,即“是什么”。借助相关关系,大数据系统能够快速探测出正在发生什么,揭示单凭经验假设和案头分析难以发现的事物间的联系。2009年,美国谷歌公司的技术人员通过分析每天来自世界各地超过30亿条的搜索指令,提前几周准确预测并具体标定了美国的流感疫情,而分析人员并不需要了解流感的成因;2012年,美国Farecast公司记录了近十万亿条美国国内航班票价用以预测机票价格走势,其预测准确度高达75%,而系统并不需要分析航空公司如何定价。通过对相关数据的分析,大数据可以将两种看似毫无关系的现象结合起来,虽然其原因有可能无法解释,但是其结果往往准确无疑。大数据的相关分析法更准确、敏感,不易受主观因素影响,可以说,建立在相关关系分析法基础上的预测是大数据的核心。
舍恩伯格指出:“大数据开启了一个重大的时代转型。就像望远镜让我们感受宇宙,显微镜让我们能够观测到微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。”大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生活和工作方式,改变商业组织和社会组织的运行方式,而且将从根本上奠定国家和社会治理的基础数据,彻底改变长期以来国家与社会诸多领域存在的“不可治理”状况,使得国家和社会治理更加透明、有效和智慧。
大数据(Big Data)一词最早可追溯到20世纪80年代。1980年美国未来学家阿尔文·托夫勒(Alvin Toffler)在其出版的《第三次浪潮》中预言人类社会正在进入以信息社会为标志的第三次浪潮。2008年,《自然》杂志出版“大数据”专刊,大数据一词成为互联网技术行业中的热门词汇,对于大数据的学术领域研究开始有了实质性的发展 。2010年,英国数据科学家维克托·迈尔-舍恩伯格和数据编辑肯尼思·库克耶在《经济学人》杂志中发表了对大数据应用的前瞻性研究。2012年5月,联合国发布了《大数据促发展:挑战与机遇》白皮书,探讨如何利用互联网数据推动全球发展。2013年,世界经济论坛发布《2013年全球信息技术报告》,指出大数据是一项具有帮助全球经济复苏的巨大潜力的新资产,同年维克托·迈尔-舍恩伯格发表著作《大数据时代》,开创了大数据系统研究的先河,将大数据的特点归结为更多、更杂和更好,并指出大数据的思维是从因果关系转向关注相关关系。2013年也被称为“大数据元年”。
我国在《2014年政府工作报告》中提出:借助大数据推动政府职能转变,利用大数据提升国家治理能力。2015年,国务院颁布《促进大数据发展行动纲要》(以下简称《纲要》),在国家层面部署推进我国大数据发展和应用,加快建设数据强国。《纲要》设立了我国大数据发展的总体目标,即推动大数据的发展和应用,在未来5~10年打造精准治理、多方协作的社会治理新模式;建立运行平稳、安全高效的经济运行新机制;构建以人为本、惠及全民的民生服务新体系;开启“大众创业、万众创新”的创新驱动新格局;培育高端智能、新兴繁荣的产业发展新生态。2016年,大数据被写入《中华人民共和国国民经济和社会发展第十三个五年规划纲要》,上升到国家战略高度,该纲要第二十七章实施国家大数据战略提出:“把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。”
大数据已被视为国家基础性战略资源。全球范围内,大数据对生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力的影响日益显现,运用大数据推动经济发展、完善社会治理、提升政府服务水平和监管能力已经成为必然,其未来发展趋势可以概括为:
1.政府大数据发展迅速
随着新公共管理运动的兴起以及全球经济进入缓慢增长的时期,各国政府普遍面临着改善服务和节约成本的持续压力,希望借助大数据的推广,简化政府工作流程、降低行政支出,并增加与民众的信息沟通,因此,政府在推动大数据应用方面将扮演重要角色。
2.预测分析功能日益显现
精准地预测未来可能发生的行为和事件可以提高决策的准确性。使用信息技术助推复杂数据的收集、分析与可视化技术整合,可以从纷繁的数据资源中梳理出源头和关键节点,为方案与政策的制定提供参考。
3.大数据与云技术深层融合
将数据迁移到云端可以更充分地实现数据信息的共享,并有助于在数据整合及分析中采用最新的技术手段,实现从数据资源到决策的快速转变。数据搜集、数据质量控制、数据分析以及数据整合等技术的融合将在未来达到新的高度。
4.隐私的保护与大数据的安全备受关注
大数据产业的发展一方面如火如荼,另一方面也充满危机与挑战。大数据应用在带来便利的同时,也暴露了一系列问题,人们开始担心个人信息的安全,骚扰电话、账户盗用、地址泄露等问题屡见不鲜,如何保护个人隐私成为大数据发展不可逾越的重要课题,而企业信息与政府信息的安全边界也需要做出界定。