本章学习目标 :
(1)了解数据采集、数据存储、数据搜索的基本概念和相关工具,以及它们与数据分析的相互关系。
(2)了解大数据实时计算引擎、批量计算引擎的基本概念、主要特征和相关工具,理解每个计算引擎的能力边界和适用场景。
(3)熟练掌握大数据分析中的数据采集、存储、搜索和数据可视化的技术和方法。
大数据安全分析中的海量数据依赖于大数据平台进行分析处理,安全分析算法和模型需要运行在大数据技术之上。大数据分析工程技术是大数据安全分析师所需掌握的知识之一。
专业的大数据安全分析师在进行安全分析时会接触到各种各样的数据,需要进行不同的处理,还需要和数据工程师打交道,了解一些大数据工程技术知识,以便更好地完成工作。
从谷歌公司内部的谷歌文件系统(Google File System, GFS)开始算起,以Hadoop为代表的大数据技术经历了十多年的发展,已经形成一个非常完整和庞大的生态系统。
本章介绍的大数据分析工程技术主要包括数据采集、数据存储、数据搜索和数据可视化技术,大数据计算引擎包括实时计算引擎、批量计算引擎、计算任务管理及调度。