现如今,我们已被数据包围,数据正在逐渐将我们淹没。来自于社交媒体、网络日志、GPS信号、RFID标签、网络音频、数字图片等方面的数据扑面而来。大数据被炒得火热,大数据时代已然来临。而大数据本身是一个比较抽象的概念,如果我们仅仅从字面来理解,它表示数据规模的庞大。但是仅仅数量上的庞大这一简单的理解显得有些狭隘,难以区分这一概念和以往的“海量数据”“超大规模数据”等概念的区别。而现如今,当谈到大数据定义时都运用比较有代表性的3V定义,即认为大数据需满足以下3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。而IDC认为还应该添加数据具有的价值性(Value),IBM认为大数据必然具有真实性(Veracity)。当然每个人对大数据有不同的理解,当我们面对实际问题时,没必要拘泥于这些现有的定义,只要符合业务规则即可。
伴随着网络和信息技术的不断发展与普及,人类产生的数据量正在呈指数级增长,在历史上从未有哪个时代产生如此海量的数据。数据的产生已经完全不受时间、地点的限制,大约每两年就会翻一倍,换句话说,每两年产生的数据量相当于之前产生的全部数据量。并且根据现有的数据量监测,这个速度还会在很长一段时间内保持下去。信息数据的单位由TB→PB→EB→ZB的级别暴增,而这样的数据很明显已经远远超出了我们人力所能处理的范围,因此大数据应运而生。它的重要性也因此而得之。
伴随着数据行业的昌盛发展,很自然就产生了一个对应的问题:这些数据作为原材料应该怎么管理?虽然数据管理并不新鲜,很早以前我们也一直在做,但随着数据爆炸性地呈指数级增长,我们如今所讲的数据和以往已经大大不同。而这也不仅仅体现在数据的大小上,同时也体现在数据的内容、来源、结构上。举个简单的例子,现如今Facebook的日均新增数据量可达600TB左右,未来必然会更高。那么处理如此大量的数据,我们不禁要问:以往的算法还可能吗?应用还能正常运行吗?答案是否定的。随着数据的变化,我们的算法也要升级,同样,我们以往的数据管理方式与思路也无法完全适应,也需要创新。因此大数据治理的概念应运而生。
既然已提出大数据治理的概念,那么它应该和大数据管理有明显的区别。COBIT5
对两者进行了精准的区分定义。
管理(Management)是指按照治理机构设定的方向展开计划、建设、运营和监控活动,以实现企业目标。
基于此定义,管理包含计划、建设、运营和监控4个关键活动,并且活动必须符合治理机构所设定的方向和目标。
治理(Governance)是指评估利益相关者的需求、条件和选择以达成平衡一致的企业目标,通过优先排序和决策机制来设定方向,然后根据方向和目标来监督绩效与规范。
基于此定义,治理包括评估、指导和监督3个关键活动,并且输出结果与设定方向必须和预期的目标一致。
从上述定义可做如下总结。
1)关键活动不同:管理包含计划、建设、运营和监控4个关键活动,治理包含评估、治理和监督3个关键活动。
2)过程不同:根据COBIT 5的定义,管理包括4个域,APO(调整、计划和组织)、BAI(建立、获取和实施)、DSS(交付、服务和支持)、MEA(监视、评价和评估),每个域又包含若干个流程。而治理包含如下过程,框架的设置与维护、确保资源化、风险化、收益交付、利益相关透明。
3)分工不同:治理相当于决策者,制定决策;管理相当于执行者,负责制定和实施决策的过程。
目前最权威的大数据治理的定义由桑尼尔·索雷斯
提出,主要包含如下6个部分:
1)大数据治理应该被纳入现有的信息治理框架内。
2)大数据治理的工作就是制定策略。
3)大数据必须被优化。
4)大数据的隐私保护很重要。
5)大数据必须被货币化,即创造商业价值。
6)大数据治理必须协调好多个职能部门的目标和利益。
根据上述相关定义可知,为了形成有效的治理体系,治理和管理必须相互作用,相互配合,才能取得最优效果。很多技术上的相关领域涉及治理框架、数据优化、隐私保护等。
大数据的大规模性、高速性和多样性等特征,使得它不同于小量数据。将小量数据的隐私保护方法用在大数据上会有很大的局限性:大数据的多样性带来的多源数据融合使得传统的匿名化和模糊化技术几乎无法生效;大数据的大规模性与高速性带来的实时性分析使得传统的加密和密码学技术遇到了极大的瓶颈。此外,大规模的数据采集技术、新型存储技术以及高级分析技术使得大数据的隐私保护面临更大的挑战。因此数据的隐私保护与安全也是大数据治理的重要关注点之一。
而在数据治理的框架下,元数据的管理也显得尤为重要。元数据按照数据类别信息进行区分可分为技术元数据与业务元数据。
技术元数据是存储关于数据仓库系统技术细节的数据,是开发和管理数据仓库的使用的数据,它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集的位置和内容;业务系统、数据仓库和数据集的体系结构和模式。
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。还包括企业概念模型,这是业务元数据所应提供的重要信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。
而对于元数据的管理又可分为以下两部分。
1)数据质量的管理:就像超市对物品进行清理一样,我们的数据也需要定期清理。
2)信息生命周期的管理:对大数据进行存档,并在没必要继续保存某些数据时将它删除。
大数据安全与治理体系下需要解决的问题如图1-1所示。
图1-1 大数据安全与治理体系
本书中,通过将Apache的Ranger、Atlas、Falcon以及Hadoop生态下的其他组件进行整合,形成完整的大数据安全与治理体系,以此来完成安全与隐私保护、元数据管理、数据生命周期管理等问题。本书中的大数据治理框架如图1-2所示。读者初看时可能难以有清晰直观的认识,当读完本书再回头观看此图时定会有不一样的理解。
图1-2 大数据治理框架
大数据的快速发展,使它成为IT领域的又一大新兴产业。据估算,国外大数据行业约有1000亿美元的市场,而且每年以10%的速度增长,增速是软件行业的2倍。而我国的大数据行业因起步稍晚,增速更为迅猛。而目前中国政府和企业对数据治理的重视程度也不断提升,在通信行业、银行行业、能源行业、互联网行业都已经开展了大数据治理的相关工作。在这个过程中,学术界和工业界做了很多探索,建立了较为科学、完整的数据治理理论体系和框架。本文从理论到实践引导读者加深理解,上文所提及的治理框架、数据安全、隐私保护、数据质量管理、数据生命周期管理都将在实践篇给出具体的实现。
如今,我们的生活已经被数据所淹没,但是目前主流的软件往往无法在合理的时间内完成对数据的撷取、管理、处理并整理成为帮助企业经营决策的重要资讯这些工作,而随着数据量的逐步扩增,这一现象会更加明显。所以企业经常要面对超出其基础设施和流程处理能力的大量数据,而从数据中挖掘出对制定有效决策有实际价值的情报更是难上加难。如今,由于种类、数量日益成倍增加的数据从社交媒体及各种在线渠道汹涌而来,导致处理上述数据的迫切性也日益加强,企业面临着更多的技术难题和挑战。
大数据不断从各种渠道、以多种格式涌入,其中蕴含着大量商业价值,但仅利用传统的数据处理方法和技术无法处理它们。故而早在2009年年初,《大数据资产:智慧企业如何在数据治理中胜出》的作者Tony Fisher就指出,如果基础数据不可靠,多数企业或大数据计划会失败,或者效果会低于预期。导致上述结果的关键原因是数据进入生命周期的不一致,数据不准确,数据不可靠。这些原因可能是多样性的:
1)大数据计划中的数据识别不完整。目前还不清楚如何获取数据,如何使用数据,哪些业务目标要满足,哪些人有权拥有数据。
2)数据收集和转换没有制定适当的标准、体系结构、元数据定义、数据所有权、策略和数据转换规则。
3)数据传输在业务用户上下文、安全性、数据和业务流程方面没有正确定义。
那么大数据治理计划的意义及其所包含的内容是什么呢?数据治理是指在企业数据生命整个周期(从数据采集到数据使用,直至数据存档)中,制定由业务推动的数据政策、数据所有权、数据监控、数据标准以及指导方针。数据治理的重点在于,要将数据明确作为企业的一种资产看待。
更好的数据意味着更好的决策,这句话在一定程度上反映了数据领域内的主要关注点,在当今的大数据时代甚至更为真切。但它之所以成立的基本假定也未改变,那就是“基本数据是准确、可靠、值得信赖的,来龙去脉清楚,并且具有一致性”。如果没有一个可靠的数据治理计划,那么这条假定也无法成立。
我们都听过诸如此类的说辞:“IT技术融入业务对我们的企业至关重要”“IT技术促成各种业务功能的实现”。但对企业上下进行实际的评估,能实现上述说辞的情况却是屈指可数。对大多数企业而言,IT技术与各种业务目标之间仍存在差距,首席信息官及各高级主管仍在努力设法使IT技术能配合各种业务目标,从而促进企业战略目标的实现。在对成功企业进行分析后,可以得出一个很明确的结论,那就是“有效的数据治理计划”是成功企业的法宝。
任何大数据计划都应该考虑数据的以下特性:数量大、种类多、产生频率高、质量可靠性低、模糊性高。那么数据处理团队想要完全识别、定义并分析这些数据,就要征询企业各方利益相关者的意见。这样做才能让企业拥有者、数据拥有者以及数据治理部门在数据治理初期就避免一些错误,确保框架的正确搭建及实施,从而达到数据集规划与业务流程紧密联系且合理有效的目的。
现在,伴随着大数据运用时代的到来,所谓“数据驱动”已然成为未来全世界的发展趋势。现在大数据已经应用于全球的生产、分配及消费活动等,并且对于国家经济的运营体制、社会民生和国家的治理生产、制造能力等都会产生非常重要的影响。在未来,国家之间的竞争可能会从资本和土地等资源的争夺转移到大数据的争夺。所以,现在大数据已经成为每个国家的战略资源的基础设施,同时,大数据治理也成为多个国家提升现代治理能力的一个重要标杆。
随着互联网、云计算等网络相关的新技术的不断完善和知识普及,我们的社会已经进入大数据时代,大量数据的产生和流转都将成为再平常不过的事。到2016年年底,全球近50%的人口在使用互联网,人人都拥有一台或多台网络终端设备,随时随地都可以上网,所以全球的数据量也在飞速增长。2020年,预计全球的数据使用量将会达到40ZB,每个行业都将产生并使用大数据,大数据也将成为发展的新趋势。而大数据治理将为社会经济能力发展提供新的动力。
在这个大数据时代,世界上各个国家都将大数据看作国家的核心资产。因此,对大数据的开发、利用和保护的概念就越来越强,可能还会产生对于大数据的争夺。大数据概念的出现就使得国家的强弱对比不仅体现在经济发展层面,还体现在一个国家大数据治理实力如何。所以对于大数据安全与治理的挑战也才刚刚开始。
在讲述了关于大数据治理的基本概念以及治理的意义和作用后,我们对大数据治理已经有了简单的认识。接下来将会从3个维度阐述大数据治理的框架,目的是让读者更加深刻地认识、理解大数据治理。
大数据治理框架从全局视角描述了大数据治理的主要内容,下面我们从大数据治理原则、治理范围、治理的实施与评估3个维度给出大数据治理的全貌,展现大数据治理的重要性以及如何进行大数据治理,如图1-3所示。
图1-3 大数据治理框架
其中大数据治理的原则给出了大数据治理过程中所遵循的、首要的、基本的指导性法则,即有效性原则、价值化原则、统一性原则、开放性原则、安全性原则,这5个部分分别从各个层面、各个角度解释了大数据治理所应遵循的原则的重要性与必要性。其中,有效性原则体现了大数据治理过程中数据的标准、质量、价值、管控的有效性、高效性;价值化原则体现了大数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值;统一性原则能够形成一套规范的、有条理的、可遵循的准则,能够节约很大的成本、时间,对大数据的治理具有重要意义和作用;开放性原则是为了提高数据治理的透明度,不让海量数据信息在封闭的环境中沉睡,同时共享信息,安全合理地共享数据,使数据之间形成关联,形成一个良好的数据标准;安全性原则体现了安全的重要性、必要性,保障大数据平台的数据安全和数据治理过程中数据的安全可控。
大数据治理的范围描述了大数据治理的关键域,即大数据治理决策层应该在哪些关键领域内做出决策。该维度共包含5个关键领域:大数据生命周期、大数据架构、大数据安全与隐私、数据质量以及大数据服务创新。这5个关键领域就是大数据治理的主要决策领域,规定了大数据治理主要应用的地方以及方向。其中,大数据生命周期是指数据产生、获取到销毁的全过程,在大数据治理中生命周期的管理更注重在成本可控的情况下有效地管理并使用大数据,从而创造出更大的价值。大数据生命周期管理包含了数据捕获、数据维护、数据合成、数据利用、数据发布、数据归档和数据清除。大数据架构是指大数据在IT环境下进行存储、使用以及管理的逻辑或物理架构,主要包含了大数据来源、大数据存储、大数据分析以及大数据应用和服务4个部分。大数据安全与隐私提供了大数据隐私管理的几个步骤,来对大数据云计算时代的数据进行隐私安全保障。数据质量领域总结了大数据产生质量问题的原因,以及应该从哪几个方面入手去有效提升大数据质量。大数据服务创新领域提出应该从基于数据本身进行创新、基于业务需求进行创新、基于数据分析的创新3个方面进行探讨,来体现对大数据服务的创新。
大数据治理的实施与评估维度描述了大数据治理实施和评估中需要重点关注的关键内容,该维度共包含了4个部分:大数据治理的实施、大数据治理的体系框架、大数据治理的成熟度评估以及大数据治理审计。它为企业实施大数据治理提供指导性方案。其中,大数据治理的实施的直接目标就是为企业建立大数据治理体系,形成一个通用的大数据治理架构。而为了实现大数据治理的实施目标,需要通过建立大数据治理的环境、建立完善的大数据治理实施流程体系和规范,以及明确大数据治理实施的阶段目标这3个方面来完成。同时在大数据实施中,实施的动力来源以及大数据治理的促成因素包含3个方面:治理实施的环境、实施技术和工具、流程与活动管理。而大数据治理的体系框架提出了一个通用的数据治理体系及架构,并分析了架构内各个模块的功能与作用,从数据持久化层、数据集成层、统一建模层、数据质量层、元数据管理层和数据治理人员组织层5个方面对大数据治理的体系结构进行阐述。大数据治理过程中,通过成熟度评估可以了解当前大数据治理实施的状态和实施方向,成熟度可以帮助了解治理的重要性。根据能力成熟度分类的方法,将成熟度分为5个等级,等级由低到高分别为:初始级、受管级、定义级、定量管理级、优化级。大数据治理的审计不仅可以提高大数据治理的实施水平,还能从更全面的角度为大数据治理提供实施意见,而且大数据审计还可以满足企业监管的需要,改善大数据在治理过程中的安全和隐私。
相关组织及企业可根据上述3个维度的指导原则,从大数据治理原则、治理范围、治理的实施与评估3个维度了解大数据的治理工作,按照治理原则中所遵循的指导性法则、治理范围中的治理关键域以及实施与评估维度中的关键内容,持续稳步地推进大数据治理工作。
大数据治理原则是指大数据治理所遵循的、首要的、基本的指导性法则。大数据治理原则对大数据治理实践起指导作用,只有将原则融入实践过程中,才能实现大数据治理的战略和目标。提高大数据运用能力,可以有效增强政府服务和监管的有效性。为了高效采集、有效整合、充分运用庞大的数据,提出以下5项大数据治理的基本原则,如图1-4所示。
图1-4 大数据治理原则
有效性原则体现了大数据治理过程中数据的标准、质量、价值、管控的有效性、高效性。在大数据治理的过程中,首先需要的是对数据处理的信息准确度高、理解上不存在歧义,遵循有效性原则,选择有用数据,淘汰无用数据,识别出有代表性的本质数据,去除细枝末节或无意义的非本质数据。这种有效性原则在大数据的收集、挖掘、算法和实施中具有重要作用。运用有效性原则就能够获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘的效率,使之在实际工作中可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体来说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“有效性原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣开发。
价值化原则指大数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值。数据本身不产生价值,但是从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,这具有很大的价值。大数据在各个行业应用都是通过大数据技术来获知事情发展的真相,最终利用这个“真相”来更加合理地配置资源。而要实现大数据的核心价值,需要3个重要的步骤,第1步是通过“众包”的形式收集数据,第2步是通过大数据的技术途径进行全面的数据挖掘,最后利用分析结果进行资源优化配置。
统一性原则是在数据标准管理组织架构的推动和指导下,遵循协商一致制定的数据标准规范,借助标准化管控流程得以实施数据统一性的原则。如今的大数据和云计算已经成为社会发展动力中新一轮的创新平台,基于大数据系统做一个数据产品,需要数据采集、收集、存储和计算等多个步骤,整个流程很长。经过统一规范后,通过标准配置,能够大大缩短数据采集的整个流程。大数据治理遵循统一性原则,能够节约很大的成本及时间,同时形成一个规范,这对于大数据的治理具有重要意义与作用。
在大数据和云环境下,要以开放的理念确立起信息公开的政策思想,运用开放、透明、发展、共享的信息资源管理理念对数据进行处理,提高数据治理的透明度,不让海量的数据信息在封闭的环境中沉睡。我们不能以信息安全为理由使很多数据处于沉睡的状态,而不开放性地处理数据。我们需要对信息数据进行自由共享,向公众开放数据,安全合理地共享数据并使数据之间形成关联,形成一个良好的数据标准和强有力的数据保护框架,使数据高效、安全地共享和关联,在保护公民个人自由的同时促进经济的增长和创新。
大数据治理的安全性原则体现了安全的重要性、必要性,保障大数据平台数据安全和数据治理过程中数据的安全可控。大数据的安全性直接关系到大数据业务能否全面推广,数据治理过程中在利用大数据优势的基础上,要明确其安全性,从技术层面到管理层面采用多种策略,提升大数据本身及其平台的安全性。在大数据时代,业务数据和安全需求相结合,才能够有效提高企业的安全防护水平。大数据的汇集不可避免地加大了用户隐私数据信息泄漏的风险。由于数据中包含大量的用户信息,使得对大数据的开发利用很容易侵犯公民的隐私,恶意利用公民隐私的技术门槛大大降低。在大数据应用环境下,数据呈现动态特征,面对数据库中属性和表现形式不断随机变化,基于静态数据集的传统数据隐私保护技术面临挑战。各领域对于用户隐私保护有多方面要求和特点,数据之间存在复杂的关联和敏感性,而大部分现有隐私保护模型和算法都是仅针对传统的关系型数据,而不能直接将其移植到大数据应用中。
传统数据安全往往是围绕数据生命周期部署的,即数据的产生、存储、使用和销毁。随着大数据应用的增多,数据的拥有者和管理者相分离,原来的数据生命周期逐渐转变成数据的产生、传输、存储和使用。由于大数据的规模没有上限,且许多数据的生命周期极为短暂,因此,传统安全产品要想继续发挥作用,需要随时关注大数据存储和处理的动态化、并行化特征,动态跟踪数据边界,管理对数据的操作行为。
大数据安全不同于关系型数据安全,大数据无论是在数据体量、结构类型、处理速度、价值密度方面,还是在数据存储、查询模式、分析应用上都与关系型数据有着显著差异。
为解决大数据自身的安全问题,需要重新设计和构建大数据安全架构和开放数据服务,从网络安全、数据安全、灾难备份、安全风险管理、安全运营管理、安全事件管理、安全治理等各个角度考虑,部署整体的安全解决方案,以保障大数据计算过程、数据形态、应用价值的安全。
大数据蕴含价值的逐步释放,使其成为IT信息产业中最具潜力的蓝海。大数据正以一种革命风暴的姿态闯入人们的视野,其技术和市场在快速发展,从而使数据治理的范围变成不可忽略的因素。
大数据治理范围着重描述了大数据治理的关键领域。大数据治理的关键领域包括:大数据生命周期,大数据架构(大数据存储、元数据、数据仓库、业务应用),大数据安全与隐私,数据质量,大数据服务创新,如图1-5所示。
图1-5 大数据治理关键领域
大数据生命周期是指数据产生、获取到销毁的全过程,具体可分为数据捕获、数据维护、数据合成、数据利用、数据发布、数据归档、数据清除等。
传统数据的生命周期管理的重点在于节省成本和保存管理。而在大数据时代,数据的生命周期管理的重点则发生了翻天覆地的变化,更注重在成本可控的情况下,有效地管理并使用大数据,从而创造出更大的价值。
大数据生命周期管理面临着巨大的挑战,其中包括3个主要类别:无穷无尽的数据总量,新数据的短期有效性,以及数据的一致性。
大数据生命周期管理主要包括以下部分:
1)数据捕获,即创建尚不存在或者虽然存在但并没有被采集的数据。主要包括3个方面的数据来源,数据采集、数据输入、数据接收。
2)数据维护,即数据内容的维护(无错漏、无冗余、无有害数据)、数据更新、数据逻辑一致性等方面的维护。
3)数据合成,即利用其他已经存在的数据作为输入,经过逻辑转换生成新的数据。例如我们已知计算公式:净销售额=销售总额-税收,如果知道销售总额和税收,就可以计算出净销售额。
4)数据利用,即在企业中如何使用数据,把数据本身当作企业的一个产品或者服务进行运行和管理。
5)数据发布,即在数据使用过程中,可能由于业务的需要将数据从企业内部发送到企业外部。
6)数据归档,即将不再经常使用的数据移到一个单独的存储设备上进行长期保存的过程,对涉及的数据进行离线存储,以备非常规查询等。
7)数据清除,即在企业中清除数据的每一份拷贝。
大数据架构是指大数据在IT环境中如何进行存储、使用及管理的逻辑或者物理架构。它由大数据架构师或者设计师在实现一个大数据解决方案的物理实施之前创建,从逻辑上定义了大数据关于其存储方案、核心组件的使用、信息流的管理、安全措施等的解决方案。建立大数据架构通常需要以业务需求和大数据性能需求为前提。
大数据架构主要包含4个层次:大数据来源,大数据存储,大数据分析,大数据应用和服务。
1)大数据来源:此层负责收集可用于分析的数据,包括结构化、半结构化和非结构化的数据,提供解决业务问题所需的洞察。此层是进行大数据分析的前提。
2)大数据存储:主要定义了大数据的存储设施以及存储方案,以进一步进行数据分析处理。通常这一层提供多个数据存储选项,比如分布式文件存储、云、结构化数据源、NoSQL等。此层是大数据架构的基础。
3)大数据分析:提供大数据分析的工具以及分析需求,从数据中提取业务洞察,是大数据架构的核心。分析的要素主要包含元数据、数据仓库。
4)大数据应用和服务:提供大数据可视化、交易、共享等,由组织内的各个用户和组织外部的实体(比如客户、供应商、合作伙伴和提供商)使用,是大数据价值的最终体现。
大数据作为社会的又一个基础性资源,将给社会进步、经济发展带来强大的驱动力。大数据代表了先进技术的发展方向,已经成为不可阻挡的趋势。在大数据时代,数据的收集与保护成为竞争的着力点。从个人隐私安全层面看,大数据将大众带入开放、透明的“裸奔”时代,若对数据安全保护不利,将引发不可估量的问题。解决传统网络安全的基本思想是划分边界,在每个边界设立网关设备和网络流量设备,用守住边界的办法来解决安全问题。但随着移动互联网、云服务的出现,网络边界实际上已经消亡了。因此,在开放大数据共享的同时,也带来了对数据安全的隐忧。大数据安全是“互联网+”时代的核心挑战,安全问题具有线上和线下融合在一起的特征。
可以尝试以下方法进行大数据的隐私管理
:
1)定义和发现敏感的大数据,并在元数据库中将敏感大数据进行标记和分类。
2)在收集、存储和使用个人数据时,需要严格执行所在地关于隐私方面的法律法规,并制定合理的数据保留、处理政策,遵循公司法律顾问和首席隐私官的建议。
3)在存储和使用过程中,对敏感大数据进行加密和反识别处理。
4)加强对系统特权用户的管理,防止特权用户访问敏感大数据。
5)在数据的使用过程中,需要对大数据用户进行认证、授权、访问和审计等管理,尤其是要监控用户对机密数据的访问和使用。
6)审计大数据认证、授权和访问的合规性。
大数据也和其他领域的新技术一样,给我们带来了安全与隐私问题。另外,它们也不断地对我们管理计算机的方法提出挑战。正如印刷机的发明引发了社会自我管理的变革一样,大数据也是如此。它迫使我们借助新方法来应对长期存在的安全与隐私挑战,并且通过借鉴基本原理对新的隐患进行应对。我们在不断推进科学技术进步的同时,也应确保我们自身的安全。
当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,而且在大数据使用过程中,如果存在数据质量问题,将会带来严重的后果,因而需要对大数据进行质量管理。大数据产生数据质量问题的具体原因如下:
1)由于规模大,其在收集、存储、传输和计算过程中可能产生更多的错误,如果对其采用人工错误检测与修复,将导致成本极其巨大而难以有效实施。
2)由于高速性,数据在使用过程中难以保证其一致性。
3)大数据的多样性使其具有更大的可能产生不一致和冲突。
如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生有害的结果。高质量的数据是进行数据分析和数据使用以及保证数据质量的前提。大数据质量控制在实施大数据质量和减轻大数据治理并发症过程中发挥着重要作用,它能够把社会媒体或其他非传统的数据源进行标准化,并且可以有效防止数据散落。
建立可持续改进的数据管控平台,有效提升大数据质量管理,可以从以下几个方面入手:
1)数据质量评估,提供全方位数据质量评估能力,如数据的正确性、完全性、一致性、合规性等,对数据进行全面体检。
2)数据质量检核和执行,提供配置化的度量规则和检核方法生成能力,提供检核脚本的定时调度执行。
3)数据质量监控,系统提供报警机制,对检核规则或方法进行阈值设置,对超出阈值的规则进行不同级别的告警和通知。
4)流程化问题处理机制,对数据问题进行流程处理支持,规范问题处理机制和步骤,强化问题认证,提升数据质量。
5)根据血统关系锁定在仓库中使用频率较高的对象,进行高级安全管理,避免误操作。
数据质量管理是一个综合的治理过程,不能只通过简单的技术手段解决,需要从企业的高度加以重视,才能在大数据世界里博采众长,抢占先机。
在信息经济发展迅猛的今天,随着数据扮演生产要素的角色,云计算发挥公共计算基础设施的作用,数据的开放、共享与流动成为可能,大数据的服务创新将激发新的生产力。在大数据时代,各个企业的核心竞争力不仅仅是数据量的竞争,多类数据之间融合、分析、挖掘与利用才是各企业间竞争的主要内容,加强数据服务创新将成为竞争的关键因素。下面,将主要从基于数据本身进行创新、基于业务需求进行创新、基于数据分析的创新3个方面探讨大数据服务创新。
1)基于数据本身进行创新:直接分析、统计、挖掘、可视化拥有的数据,从而发现一些规律,对业务进行创新。
2)基于业务需求进行创新:通过对数据的价值链、业务关联接口、业务要素等方面的创新,可以深入洞察业务需求,发现特色数据,进而提供更加个性化的服务。
3)基于数据分析的创新:针对数据定义,通过数据中间处理以及数据处理自动化、智能化的创新,进一步更清晰地呈现数据,并对数据进行更明确的分析和更深层的解读。
大数据治理的实施与评估描述了大数据治理的实施和评估过程中需要重点关注的内容,包含大数据治理的实施环境、实施步骤,以及实施结果的评估,为企业实施大数据治理提供指导性方案。
大数据治理的实施的最直接目标就是为企业建立大数据治理的体系,凭借IT方面治理的实施方法论,并结合大数据治理的特征,形成一个通用的大数据治理框架,并着重指出在每个阶段需要关注的关键要素以及在各个阶段的产出物。为实现大数据治理的目标,主要进行以下三方面的实施。首先,需要建立大数据治理的软硬件环境,综合考虑数据量大小、用户及时性需求等来建立大数据治理的环境,这是大数据治理实施的基础。其次,需要建立完善的大数据治理实施流程体系和规范,完善的流程是保障大数据治理顺利实施的重要措施。最后,明确制定大数据治理实施的阶段目标,明确目标将会促使大数据治理实施能够高质量地完成。实施大数据治理的长期目标是通过大数据治理,为企业的利益相关者带来价值,这种价值主要体现在三个方面,分别是业务创新、价值获取、风险控制。
在大数据治理的实施过程中,首先必须明确大数据治理的未来目标以及促成因素,从而让企业的决策者对大数据治理的实施制定总体规划。
大数据实施的动力主要来源于大数据治理的业务需求,这些需求包括内部需求和外部需求。这些需求从高到低分别为:企业高层管理根据企业的价值方向确定大数据治理的发展策略以及重大决策;业务管理员根据提升管理水平、降低大数据的运营成本等目标,制定企业的具体运作和管理任务;业务操作员根据提升业务处理水平来实施具体业务,而不负责监督其他管理任务;基础设施层主要负责为大数据治理的实施提供统一的基础设施管理。
大数据治理的促成因素是指对大数据治理的成功实施具有关键性作用的因素,主要包括三方面:治理实施的环境、实施技术和工具、流程与活动管理。治理实施的环境主要包括内部环境和外部环境,内部环境主要包括企业内部文化,外部环境主要包括大数据实施环境、企业现在所具备的技能和知识等。实施技术和工具主要是指为大数据治理实施提供有力的支撑和保障,在使用相应的技术和工具时主要包含以下内容:技术与工具的安全性保障,具备大数据的访问和控制技术;利用技术和工具对数据的生命周期等进行配置管理;审计和报告工具来完成对业务流程的监控,提前发现可疑活动,减轻系统管理的负担,提高问题处理效率。流程与活动管理主要包括详细定义流程的作用和流程的目的,优化用户和大数据之间的沟通效率。
近些年国内的研究更关注于某一行业或者领域的数据治理应用情况,缺乏通用的大数据治理框架体系。本书针对这一问题,提出一个通用的大数据治理体系架构,并分析了架构内各个模块的功能与作用。数据治理体系框架包括数据持久化层、数据集成层、统一建模层、数据质量层、元数据管理层和数据治理人员组织层。
1)持久化。持久化是数据治理的基础问题。在传统的数据管理层场景,一般用关系型数据库作为数据持久化的载体。对于这一问题已有许多研究,本书不赘述。然而伴随大数据时代的到来,一方面,传统的关系型数据库很难应对数据量过大的问题,因此在数据治理体系内引入NoSQL数据库是大数据问题驱动的必然选择;另一方面,非结构化数据往往以大文件的形式存在,这些大文件通常依赖于分布式的文件系统,如HDFS、TFS等,相比传统的数据治理方法,新一代的数据治理体系应当对这些新生的大数据技术给予支持。
2)数据集成。企业内部不同系统之间往往存在许多共有的复用数据。在传统的数据管理体系下,并未对这些数据给出明确定义。在数据治理体系下,这些数据以“主数据”的形式表达出来。主数据是指具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,是单一、准确、权威的数据来源。主数据的实施,更有利于系统的集成和数据的协调管理。
作为不同系统产生的大文件数据,上层的系统应用需要统一的SQL接口来部署和管理,这就用到了数据仓库技术。例如Hadoop体系中的Hive,可以很好地将不同的大文件抽象出统一的SQL接口供上层使用,通过将SQL语句转化为大数据常用的MapReduce程序来实现数据查找等功能。这一过程对上层完全透明,大大简化了开发难度。
3)统一建模。统一建模是主数据和数据仓库建立的重要标准。从本质上看,数据治理体系下的数据建模与传统的关系型数据库的建模并无本质不同,同样存在着三级数据模型,即概念数据模型、逻辑数据模型和物理数据模型。
4)数据质量。数据质量是数据治理的重要内涵,我们可以把数据质量理解为“数据满足要求的程度”。其中,数据质量又有许多评估维度,例如数据的来源是否可靠?数据是否完整?数据是否可访问?数据是否安全?等等。这些都要根据客观的实际需要来制定。
5)元数据管理。元数据(Metadata)通常被用来表达实体数据的描述信息,即可称为“数据的数据”。抽象出这种用来表述数据特征的数据,是为了加强数据的统一管理,实现数据资源的科学整合,有利于数据的长期保存。例如,统一建模的描述信息、数据质量的定义等信息可统统交由元数据库来管理。
6)数据治理人员组织。数据治理的真正实施,说到底还是要依赖企业的人员组织部门。具体来说,是由战略决策者、业务管理者、业务操作员具体推进数据治理的实施。战略决策者制定企业大数据发展的重要战略和决策,其主要人员往往是企业的决策和高层管理人员,如企业技术总监、首席数据官和首席架构师等。战略决策层实施大数据治理的动力在于利用大数据辅助企业高层管理者制定重大决策,支持企业风险管控、价值实现和服务创新,从而建立并保持企业的竞争优势。业务管理者一般是IT项目经理、IT部门主管或者IT部门经理,负责企业的具体运作和管理任务。业务管理者在数据治理实施过程中负责提升企业IT管理水平,降低数据的运营成本,提高数据的客户服务水平,控制数据管理的风险等。业务操作员一般不具有监督和管理的职责,通常负责执行具体的工作。在业务操作层,大数据治理实施的动力就是规范和优化大数据应用的活动和流程,提升大数据的业务处理水平,具体包括大数据应用的效果和质量,大数据应用的可持续性、时效性、有效性和可靠性等。通过有效的人员组织,将会大大提高数据治理落地速度和实施效果。
大数据治理过程中,通过成熟度评估可以了解当前大数据治理实施的状态和实施方向,认识数据治理的重要性,为实现数据价值最大化提供依据,帮助企业管理者更智慧地经营和决策,以达到确保数据的及时性、高品质、可分享性和一致性的目的。达成这些目标对实现灵活的商业运营和成果丰富的数据分析至关重要,进而才能据此做出针对性精准的商业决策。因此,大数据治理的成熟度评估是大数据治理成功实施的至关重要的一步。
根据能力成熟度模型提供的分类方法,可以将成熟度分为5个等级:1级为初始级,此时流程通常是临时的,整体环境不够稳定;2级为受管级,实施成功是可重复发生的,但可能无法针对组织中所有项目重复流程,存在基本的项目管理和流程规则,但仍有超出预期成本和时间的风险;3级为定义级,建立了标准流程集,通过组织的标准流程集定制标准、流程描述和项目流程,以适应特定项目或组织单位;4级为定量管理级,对流程进行定量度量和控制,所选的子流程大大提高了整体流程绩效;5级为优化级,在该级明确了组织的定量流程改进目标,并不断优化,以适应变化的业务目标
。
IBM数据治理成熟度模型共使用了11个类别来度量数据治理能力,11个类别又分为4个相互关联的组。
1)数据风险管理及合规性:确定数据治理与风险管理关联度,用来量化、跟踪、避免或转移风险等。
2)价值创造:确定数据资产是否能帮助企业创造更大价值。
3)组织结构和意识:主要用来评估企业针对数据治理是否拥有合适的数据治理委员会、数据治理工作组和全职的数据治理人员,是否建立了数据治理规章以及高级主管对数据是否重视等。
4)管理工作:是指质量控制规程,用来管理数据以实现资产增值和风险控制等。
5)策略:为企业如何管理数据在高级别上指明方向。
6)数据质量管理:主要指用来提高数据质量,保证数据准确性、一致性和完整性的各种方法。
7)信息生命周期管理:主要指对结构化、半结构化以及非结构信息化全生命周期管理相关的策略、流程和分类等。
8)信息安全与隐私:主要指保护数据资产、降低风险的各种策略、实践和控制方法。
9)数据架构:是指系统的体系结构设计,支持向适当用户提供和分配数据。
10)分类与元数据:是指用于业务元数据和技术元数据以及元模型、存储库创建通用语义定义的方法和工具。
11)审计信息记录与报告:是指与数据审计、内部控制、合规和监控超级用户等有关的管理流程。
可以通过回答问题来评估企业当前数据治理的成熟度。例如是否已经确定了大数据治理计划的关键业务相关人员、是否能对大数据治理提供的财务收益进行量化等问题。上述数据治理成熟度模型如图1-6所示。
图1-6 IBM成熟度模型
审计是成功实施大数据治理的基础,以第三方的客观立场对大数据治理过程进行综合检查、监督和评价,并给出详细的、有价值的审计意见,促进大数据治理的规范性,保证大数据的一致性、可靠性、有效性和安全性,进一步提升大数据的利用价值,有助于对大数据治理实施提供指导性意见,以及为企业发展的战略决策提供可靠依据。大数据治理审计不仅可以提高大数据治理的实施水平,从更全面的视角为大数据治理提供实施意见,而且大数据治理审计还可以满足企业监管的需要,可以改善大数据在治理过程中的安全和隐私。大数据审计的对象称为审计客体,即在数据治理工程中被作用的对象,这类对象不仅包括大数据治理的整个生命周期,还应该涵盖大数据在治理过程中的中间产物,以及进行大数据治理的实施环境。大数据审计的内容主要包含数据一致性的审计、数据风险的审计、数据安全与隐私的审计、数据处理过程的审计、数据质量的审计、数据生命周期的审计等。进行大数据治理的审计主要是让企业了解大数据治理活动的总体情况,对企业数据的总体价值利用情况进行把握,提前准备应对数据治理过程中的相关风险,并提出评价意见和改进意见,可以提供给组织用于改善经营管理,促进实现大数据治理的目标。
总之,大数据治理的审计工作在最大化实现数据价值过程中必不可少,它能够全面地、在更高层次来评价企业的大数据治理情况,客观地显示大数据治理的生命周期管理水平,从而提高企业预防大数据风险的能力,满足企业发展的需要。