近年来,我国大数据产业的发展进入爆发期,越来越多的企业和组织将大数据作为自己经营战略的重要组成部分。大数据技术作为一种新兴的生产资料和创新要素,必须结合具体的行业和应用场景才能发挥其价值,驱动产业发展和转型。同时,面对日益严峻的网络安全挑战,业界提出了以数据分析为中心的网络安全防护体系,把主动检测和自动化应急的希望寄托于日志、流量和威胁情报为数据源的智能分析技术,以解决APT攻击、用户行为分析这类复杂且隐蔽的网络安全威胁。而大数据分析技术本身是一种普适性的方法论,虽然业界提出了众多的大数据处理体系和基于统计学或机器学习的方法,但如何将大数据智能分析技术应用于复杂的网络安全防护场景,如何开展大数据安全的关联分析和综合研判,仍然是业界值得深入思考和研究的热点问题。在这一背景下,大数据安全分析师成为稀缺人才。另外,市面上缺少合理地将大数据智能分析技术与安全防护场景进行有效结合的书籍,这严重制约了安全分析师的成长。
杭州安恒信息技术股份有限公司依托自身的安全服务业务,自主研发了“AiLPHA大数据智能安全平台”,具备全网流量处理、异构日志集成、核心数据安全分析、办公应用安全威胁挖掘等前沿大数据智能安全威胁挖掘分析与预警管控能力,深耕公安、网信、金融等多个行业及领域,曾连续三年获评工信部示范试点项目,并获得浙江省计算机学会、浙江省计算机行业协会2020年度优秀产品奖及2020年度中国网络安全与信息产业“金智奖”等多个奖项。鉴于目前关于大数据安全分析的图书较少,很难找到一本书系统、有针对性地对大数据安全分析这一重要技能以理论与实践相结合的方式进行全方位的介绍。因此,编者希望通过编写此书,将工作中积累的实践经验与研究成果分享给广大读者。
本书共10章。其中,第1章为大数据安全概述,主要介绍大数据的定义与特征、大数据平台与架构、大数据应用案例以及大数据分析技术在安全中的应用,帮助读者建立对大数据安全分析的整体认知;第2章是大数据安全分析基础,从理论基础和实践基础出发,对大数据安全分析的基本概念、思路、算法及Python等常见编程工具进行了简单的介绍;第3章为大数据分析工程技术,对大数据采集、存储、搜索、计算引擎以及数据可视化的常用方法与工具进行了系统的介绍;第4章是机器学习和深度学习,首先介绍了机器学习的基本定义、适用场景,以及监督学习和无监督学习算法的概念,然后对深度学习的相关概念、核心思想等进行了阐述;第5章是分类算法,选择了分类算法中典型的五个算法,即决策树、朴素贝叶斯、K近邻(KNN)模型、支持向量机(SVM)和BP神经网络,从算法原理、案例分析及算法优缺点等方面进行了介绍;第6章是预测分析,主要目的是介绍统计预测的基本概念及典型的统计预测方法,如时间序列、回归分析等,并引导读者如何使用不同的预测分析方法;第7章是关联分析,对关联分析的基本概念、Apriori算法和FP-growth算法原理,以及应用场景进行了详细的阐述;第8章是聚类分析,介绍了欧氏距离、曼哈顿距离和闵可夫斯基距离等相似度计算方法,以及层次聚类、k-means聚类和EM聚类三个经典聚类算法的原理和案例等;第9章是大数据安全分析应用,围绕僵尸网络检测、恶意URL检测、WebShell检测及Malware检测四类应用展开讨论,以便读者能够更好地理解前面章节的算法在实际中的应用;第10章是大数据安全相关法律法规,介绍了现行大数据安全的国家政策、法治体系建设,以及大数据安全分析相关的行为规范,为读者之后的从业道路提出了警示。
本书以理论联系实际为指导原则,将大数据安全分析的理论知识、工具和实践案例进行有机结合,可作为普通高等院校和职业院校相关专业的课程教材,以及网络安全技术从业人员的参考用书。读者在阅读本书的过程中,不必执着于弄懂算法推导的步骤,对于难度较大的算法只需理解即可,若能辅以实践操作将理论付诸应用,将能加深对大数据安全分析技能的理解。
本书主要由孙佳、苗春雨、刘博编写,另外,谈修竹、姜鹏、莫凡、聂桂兵、杨锦峰、陈子杰、龙文洁、吴鸣旦、金碧霞、郭婷婷、陈美璇、黄施君、叶雷鹏和王伦也参与了本书的编写和审稿校对工作。
大数据安全分析须在法律法规允许、目标单位授权的情况下实施,切勿将本书介绍的方法和手段在未经允许的情况下,针对任何生产系统使用。同时,要格外关注大数据安全分析过程中的保密性和规范性指导。
在此,对所有参与本书编写、审阅和出版等工作的人员表示感谢。
由于编者水平有限,本书不妥之处在所难免,望广大网络安全专家、读者朋友批评指正,共同为我国网络安全技术人才培养和人才认证体系建设而努力。
编者