大数据是信息技术和计算机技术持续发展的产物。它为人们提供了一种可量化地认知世界的方式,可以称得上是一次重大的科技进步。2009年,美国谷歌公司的工程师根据用户的搜索数据,成功预测了甲型H1N1流感在全球范围的流行,该预测结果甚至早于美国公共卫生官员的判断。谷歌公司对流行病的预测方法并不需要大规模的实地检测,仅需要利用每天数十亿次用户的网络搜索数据,便可得出上述预测结果。这是谷歌公司基于大数据的分析技术为社会生活提供支持的一个典型应用案例。
现在我们对大数据似乎已经司空见惯。可是在当时,这些数据不但数量巨大、不断产生,甚至连存储、查找都很困难。那么,谷歌是如何实现对这些数据进行存储和处理的呢?
早在2003年,谷歌就发表了一篇论文,提出了谷歌文件系统(Google File System, GFS)。这是一个可拓展的分布式文件管理系统,它将拍字节(PB)级别的大文件切分成若干部分,把每一部分复制3份,然后保存在不同的机器上。虽然这些机器有的是廉价的,甚至是稳定性较差的,但也能存储一些小块的文件。当一部分机器不工作时,可以从其他机器中取得所需的文件,并对其他部分的文件进行自动恢复。这一开创性的设计拉开了大数据时代的序幕。大数据在国内外发展的里程碑事件如图1.1所示。
2009年,很多国家开始建立和分享数据库。美国政府建立了一个政府数据开放网站(Data.gov),让政务数据变得更加透明和易于获取。印度政府建立了生物识别数据库来进行身份认证管理。欧洲的一些研究性图书馆通过与科技信息研究机构合作,将科研数据上传至网络,以便读者获取。
2011年,美国著名咨询公司麦肯锡发布报告《大数据:创新、竞争和生产力的下一个前沿》,对大数据进行了全方位的介绍与展望,宣布了大数据时代的全面到来。2011年年底,在我国工业和信息化部发布的《物联网“十二五”发展规划》中,明确将信息处理技术提为关键技术创新工程。
近年来,伴随着大数据时代的发展,大数据技术的内涵有了演进和拓展,从基本的面向海量数据的存储、处理、分析等需求的核心技术延伸到相关的管理、流通、安全等其他需求的周边技术,逐渐形成了一整套大数据技术体系,成为数据能力建设的基础设施。伴随着技术体系的完善,大数据技术开始向降低成本、增强安全性的方向发展。
图1.1 大数据发展里程碑事件
大数据技术的兴趣源于2000年前后互联网的高速发展。伴随着时代背景下数据特征的不断演变及数据价值释放需求的不断增加,大数据技术已逐步演进成为针对大数据的多重数据特征,围绕数据存储、处理计算的基础技术,同配套的数据治理、数据分析应用、数据安全流通等助力数据价值释放的周边技术组合起来形成的整套技术生态。如今,大数据技术已经发展成为覆盖面庞大的技术体系。
在大数据时代,数据量大、数据源异构多样、数据时效性高等特征催生了高效完成海量异构数据存储与计算的技术需求。在这样的需求下,面对迅速增长而且数量庞大的数据,传统的集中式计算架构遇到难以逾越的瓶颈,因而催生了以下技术:传统的关系型数据库的单机存储及计算性能有限,出现了规模并行化处理(Massively Parallel Processing, MPP)的分布式计算架构;面向海量网页内容及日志等非结构化数据,出现了基于Apache Hadoop和Spark生态体系的分布式批处理计算框架;面向对于时效性数据进行实时计算反馈的需求,出现了Apache Storm、Flink和Spark Streaming等分布式流处理计算框架。
数据管理类技术助力提升数据质量与可用性。技术总在随着需求的变化而不断发展。在较为基本和急迫的数据存储、计算需求已得到一定程度上的满足后,如何将数据转化为价值成了下一个主要问题。最初,企业与组织内部的大量数据因缺乏有效的管理,普遍存在数据质量低、获取难、整合不易、标准混乱等问题,使得数据后续的使用存在众多障碍。在此情况下,用于数据整合的数据集成技术,以及用于实现一系列数据资产管理职能的数据管理技术随之出现。
数据分析应用技术可用于发掘数据资源的内蕴价值。在拥有充足的存储计算能力及高质量可用数据的情况下,如何将数据中蕴涵的价值充分挖掘出来,并同相关的具体业务结合以实现数据的增值成为关键。用以发掘数据价值的数据分析应用技术,如以BI(Business Intelligence)工具为代表的简单统计分析与可视化展现技术,以及以传统机器学习和基于深度神经网络的深度学习为基础的挖掘、分析、建模技术纷纷涌现,帮助用户发掘数据价值,并进一步将分析结果和模型应用于实际业务场景中。
数据安全流通技术助力安全合规的数据使用及共享。在数据价值的释放初现曙光的同时,数据安全问题也愈加凸显,数据泄露、数据丢失、数据滥用等安全事件层出不穷,对国家、企业和个人用户造成恶劣影响。如何应对大数据时代下严峻的数据安全威胁,如何在安全合规的前提下共享及使用数据成为备受瞩目的问题。访问控制、身份识别、数据加密、数据脱敏等传统数据保护技术正积极地向更加适应大数据场景的方向不断发展。同时,侧重于实现安全数据流通的隐私计算技术也成为热点发展方向。
大数据发展时间轴如图1.2所示。
图1.2 大数据发展时间轴
2008年,计算社区联盟发表《大数据计算:在商业、科学和社会领域的革命性突破》一文,提出“大数据最重要的不是数据或处理数据,而是找到新用途、发现新见解”这一观点。
2012年,达沃斯世界经济论坛将大数据作为主题之一,并称为新的资产类别。联合国也发表了关于大数据政务的白皮书,将大数据从商业行为上升到国家战略。同年,Splunk成为首家上市的大数据处理公司。
自2012年大数据广泛进入实际应用以来,产业界和学术界在大数据技术与应用方面的研究创新不断取得突破,大数据领域的论文发表数量和专利申请数量快速增长。在论文发表方面,根据Web of Science数据库收录的SCI论文数据统计,2012~2020年,全球共发表以“big data”为关键词的大数据领域相关论文64739篇。其中,2012~2018年大数据相关论文发表量持续增长,并在2018年达到高峰,全年共发表相关论文11453篇,是2012年论文数量的5.4倍,7年间的年均增长率约为32.5%。2019年论文数量较前一年有所减少,但仍然超过1万篇。2020年1~6月,发表论文3915篇。随着科学研究的不断发展,大数据相关的理论体系将逐渐成熟,未来学术论文成果发表的增长速度或将放缓。从发表论文的国家和地区来看,中国和欧美地区仍是大数据相关学术研究的核心地带。中国和美国是大数据相关论文发表量名列前茅的国家,2020年,中国和美国分别发表论文18216篇和16241篇,占全球论文总量的28.14%和25.09%,遥遥领先于其他国家。英国、印度和德国的论文发表数量占比分别为6.03%、5.92%和5.66%,意大利、澳大利亚、西班牙及其他国家的论文数量占比均低于5% 。
在专利申请方面,根据WIPO(世界知识产权组织)的PATENTSCOPE数据库的统计数据,2012~2021年,全球共申请大数据领域的相关专利136694项。2012~2019年,大数据技术快速发展,国内外大数据企业更加重视知识产权保护,专利申请数量始终保持稳定增长,从2012年的9135项持续增长至2019年的25854项,年均增速约为16.0%。2020年1~6月,全球共申请大数据相关专利10789项。从受理专利申请的国家和地区来看,大数据相关专利的申请较为集中,93%以上的专利分布在美国、中国、PCT(专利合作条约)组织和欧洲专利局。美国受理的专利数量居首位,占比约为49.19%,IBM、微软、Oracle、EMC等美国企业的技术优势仍然显著。中国为第二大专利受理国,占比约为19.25%,这凸显出我国大数据发展态势良好,在国际上有重要的市场地位,但在技术创新与突破上,我国与美国仍有较大差距。此外,PCT组织和欧洲专利局受理的专利数量占比分别为16.39%和8.31%,其他国家的占比均在5%甚至1%以下。
从细分领域来看,在大数据领域的科学研究中,针对基于分布式计算技术的数据关联分析或数据挖掘的论文和专利数量明显多于其他领域,可见,数据分析、挖掘依旧是大数据科研创新的热点方向。
根据《中国大数据产业发展水平评估报告(2018年)》,大数据定义如下:大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。由此可见,“大数据”一词既包含了数据本体,以及对数据进行处理的技术手段,又体现了数据价值所带动的新兴产业。
在当前的计算机体系结构下,数据依照二进制规则实现物理存储。在表1.1中,我们列出了目前常用的存储单位及其对应的含义或应用场景。
表1.1 各级数据存储单位的关系与对比
(续)
数据来源:部分例子参照徐子沛的《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活(3.0升级版)》一书。
大数据通常包括5个典型的特点,简称“5V”标准:Volume(大量)、Variety(多样)、Value(价值密度低)、Velocity(高速)、Veracity(真实性)。具体内容如下。
❑ Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。医疗数据的一个显著特点是数据量大,如以前的心电图通常只在病人就诊时采集,而现在可以采集24小时心电图,从而带来比以前多出很多倍的数据。基于这个原因,在医疗大数据领域,数据存储是必须引起重视的,比如对电子病例的管理和保存。研究人员需确保数据存储的基础设施能够满足临床和科研的需求。
❑ Variety:种类和来源多样化,包括结构化、半结构化和非结构化数据。其中结构化数据包括电子化的病历、图像和视频。结构化数据的特点是其具有特定的顺序,并可以直接被计算机处理。半结构化数据具有一些结构化数据的特点,但缺乏严格的结构和形式,一个例子就是逗号分隔值(Comma Separated Value, CSV)的文件格式,这类文件中每个数据由逗号分开,但数据的排列不一定遵循特定的形式。非结构化数据包括手写的临床记录和音频数据等,这类数据的特点是不具有特定的顺序和形式,甚至在不同时间点上同一类数据的形式也是不同的。从来源上看,这些数据包括临床记录、保险数据、检测结果、基因序列和影像数据等。
❑ Value:医疗数据的一个特点是价值密度相对较低。如何从大数据中提取有价值的信息是医疗大数据分析的一个挑战。换句话说,医疗大数据包含的信息不一定直接表现在数据上,而是需要经过一些处理过程来提取信息。典型的例子如医学影像,其中含有的信息虽然丰富,但需要经过人工读片或计算机分析才能提取。更多时候,医疗大数据需要经过综合处理才能从中提取出准确的信息,比如当一个核磁共振图像显示了病人有相当程度的脑萎缩症状的时候,是否代表病变则需要医生考虑病人的年龄来确定。对一个80岁的人来说,一定程度的脑萎缩是老年化的正常过程,不需要过度担心和医疗介入;而对于一个18岁的人来说,同样的脑部图像则更多地反映了潜在的病变,需要进一步检查。
❑ Velocity:医疗大数据增长速度快,处理速度也快,对时效性要求高。比如急诊部门要求数据能够实时显示,而日常门诊部门要求能够调取病人的历史数据。大数据的增长速度还体现在数据的生成正在变得多样化上。如果说以前医疗数据的生成还仅来自医疗机构,比如病人只有到了医院才能量血压、测血糖,那么现在随着家庭医用产品,特别是可穿戴设备的普及以及手机的大量使用,这些数据随时随地都能获得,如智能手环24小时不间断产生的检测数据,这些都极大地加快了医疗大数据的生成速度。
❑ Veracity:数据的准确性和可信赖度,即数据的质量。医疗大数据的质量好坏取决于数据的生成和使用,比如在数据生成中,当医生记录病人的临床信息如过往病史时,病史的完整程度会受到病人的记忆力和记录过程的影响。当使用医疗数据的时候,不同的人员对同一个数据的看法可能会不同,对数据的标记和归类也不尽相同。比如在对前列腺癌活检切片的判断中,根据医生对感兴趣区域的选取的不同,对同一个切片的评分可能会有不同,而不同的评分将直接影响对肿瘤的定级和后续的治疗。这些因素都会影响医疗数据的质量。