当前,大数据这个词已经逐渐被广泛认知和普遍认可。前文已经简要说明了大数据与信息资源管理之间的一些基本关联关系,这部分主要从技术基础的角度介绍大数据技术,以更好深挖大数据技术赋能下的信息资源管理变革。
针对海量的、复杂的、非结构化的数据,如果不进行系统处理与分析,便无法发挥出大数据的价值。而传统的数据分析方法处理海量数据时往往效率低下,因此需要借助大数据技术来实现大数据的价值挖掘。国际数据公司(International Data Corporation,IDC)将大数据技术定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各类大量数据的经济价值
。
大数据技术的诞生得益于互联网技术的飞速发展与日益增长的数据分析需求。2008年,雅虎、谷歌等互联网公司就率先将大数据技术应用到了现实中。相对于传统的数据处理技术,大数据技术具有精确、理性和抽象的特征,可以实现对海量数据的快速处理和价值挖掘,对社会生活的方方面面产生了实质影响。例如:大数据技术通过在智慧医疗、智慧出行、购物推荐等领域的创新应用,改善了人类的生活方式;通过优化产业结构、提升管理效率,推动了创新产业的蓬勃发展;通过提高政府部门的管理效率、提升社会综合服务水平,提高了社会管理能力等。此外,大数据技术还颠覆了人们认识和了解科技、经济、文化的方式,改变了人类的生产生活方式和思维模式,让人们能够更加全面、完整、客观地认识世界。
大数据技术系统是一个庞大而复杂的系统,涉及数据产生、获取、存储和分析的各个环节,大数据技术使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得有价值的信息。从流程视角看,大数据技术包括大数据采集技术、大数据预处理技术、大数据存储技术、大数据处理与分析技术、大数据可视化技术等
。
(1)大数据采集技术
传统的数据采集(或信息采集)存在数据单一、结构单一、存储数据量小等问题,并以关系数据库和并行数据库为主要导向。大数据采集技术关注的是来源更加广泛、数据类型更加丰富的多源异构多模态数据,并以分布式数据库为主要导向。大数据采集源涉及RFID数据、传感器数据、社交网络数据、移动互联网数据等,相关采集方法包括We b数据采集、系统日志数据采集、数据库数据采集等。目前广泛应用的大数据采集平台有Apache Flume、Fluentd、Logstash等。
(2)大数据预处理技术
大数据采集通常会涉及多个数据源,不同数据源的数据结构也存在差异,故存在很多噪声数据、数据值缺失、数据冲突等问题,因此在大数据分析前需要对大数据采集得到的数据资源进行预处理。
大数据预处理技术涉及数据的清理、集成、归约与转换等内容,以确保大数据质量。其中:数据清理技术涉及数据的不一致检测、噪声数据的识别、数据过滤与修正等方面;数据集成技术是汇总多个数据源的数据,形成完整性的数据体;数据归约技术是在不损害分析结果准确性的前提下降低数据集规模,涉及维归约、数据归约、数据抽样等技术;数据转换技术则包括基于规则或元数据的转换、基于模型与学习的转换等技术,主要是提高大数据的一致性和可用性。
(3)大数据存储技术
在移动互联网环境下,数据爆炸式增长,相关主体根据业务需要对数据存储提出了新要求,而传统的数据存储技术在大规模数据、非结构化数据以及高并发用户访问等问题解决上存在极大限制和瓶颈,为此,构建高性能、高拓展性的大数据存储系统和基础设施是大数据时代的必然要求。
大数据存储系统的选择一般有NAS(Network Attached Storage,网络附属存储)和分布式存储两种路径。NAS主要针对文件级别的存储,主要将多个存储节点以网络连接的方式来增加存储容量和处理能力。尽管一定程度上NAS能用来处理高速增长的数据量,但是成本比较高。因此,分布式存储应运而生,其典型特点就是水平扩展、容错性高、高可用性、能快速检索出海量数据等。按照存储接口划分,分布式存储可分为对象存储、块存储和文件存储,并涉及元数据管理、数据去重、数据分布和负载均衡等关键技术
。
(4)大数据处理与分析技术
大数据处理技术与相关数据存储形式、业务数据类型等密切相关,主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。其中,MapReduce是一个批处理的分布式计算框架,可对海量数据进行并行分析与处理。分布式内存计算系统可有效减少数据读写和移动的开销,提高大数据处理性能。分布式流计算系统则是对数据流进行实时处理,以保障大数据的时效性和价值性。
大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。分布式统计分析技术可由数据处理技术完成,分布式挖掘、深度学习技术则在大数据分析阶段完成,包括聚类与分类、关联分析、深度学习等,可挖掘大数据集合中的数据关联性,形成对事物的描述模式或属性规则,可通过构建机器学习模型和海量训练数据提升数据分析与预测的准确性。
(5)大数据可视化技术
大数据可视化即以计算机图形或图像的直观方式将大数据分析结果显示给用户的过程,并可与用户进行交互式处理。大数据可视化呈现形式多样,如数据统计图表、GIS(地理信息系统)、三维建模、时空态势分析与展示等。大数据可视化技术可大大提高相关分析结果的直观性,便于用户理解与使用,最重要的是,大数据可视化技术的应用还有利于发现和洞悉隐含的规律性信息和知识。目前来看,大数据可视化技术包括文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化技术等。另外,人机交互技术是支持大数据可视化分析的一个重要方面,涉及界面隐喻与交互组件、多尺度多焦点多侧面的交互技术、面向Post-WIMP的自然交互技术等关键内容
。