以人工智能、大数据、云计算、边缘计算等为代表的新技术带来了业务发展的新模式,推动着政企数字化转型的高速发展,建设自动化、智能化的网络安全风险识别预警系统已成为重中之重。传统的网络安全风险识别技术以规则分析为主,优点是可以根据已经发生的风险事件快速总结归纳出固定的规则,检测速度快、针对性强;缺点是对于未知的网络安全风险及威胁,检测能力较弱。同时,当检测规则达到一定量级后,检测范围不严谨、管理困难、各种规则之间容易存在交叉等缺陷,从而出现较多的误报,并且不容易优化调整,导致安全分析人员的效率显著下降。
随着攻击手段的不断变化,高级持续性网络安全攻击层出不穷,网络安全正在成为一个融合大数据、人工智能且需具备全局视角的大数据分析问题。人工智能模型能自动学习数据中的规律特征,具备较高的检测准确率和较好的泛化能力。虽然训练需要的时间相对较长(某些场景下的预测实时性不及规则策略),但经过调优后也能达到近实时的效果。尤其针对高级威胁、未知风险、0day等攻击检测,人工智能表现出来的优势尤为明显,能够作为规则策略方法的关键补充。
我国网络安全人才缺口率高达95%,到2027年这一数据将增长至300万。其中,具备机器学习和人工智能技术的高级安全分析人员尤为紧缺。本书基于安恒信息近10年的实践和教学经验,总结了一套高效的教学模式,除了理论方法的教学,更注重实战教学,让学员能学以致用,融会贯通。整个教学内容的编排和机器学习的基本流程相得益彰。
· 机器学习第一步:样本的收集与整理。对应整个教学内容的前置知识,如Python基础、大数据工程技术基础、基本的大数据分析流程等,帮助学员打好基础。
· 机器学习第二步:提取特征。对应整个教学内容的算法知识,如分类算法、聚类算法、关联分析等,帮助学员了解算法的原理和优缺点,熟悉算法的使用场景。
· 机器学习第三步:选择模型并调优。对应整个教学内容的场景案例应用教学,如僵尸网络的检测、恶意URL的检测、WebShell的检测等,帮助学员深入理解在不同场景下如何使用算法模型,领会算法和场景的内在关联关系和异同点。
· 机器学习第四步:使用训练好的模型进行预测。对应整个教学内容的实操教学,学员会用Python进行编程建模实操,实现场景案例及课后习题,可以帮助学员更好地学以致用,提高学员将所学知识应用于实际工作的能力。
通过本书的学习,读者会更深刻地认识到传统分析方法和基于机器学习的大数据分析方法的内在联系:它们相辅相成,互为补充,各有千秋。读者如果能将两者结合起来,取长补短,定会有更好的分析检测效果,并成为一名优秀的网络安全大数据分析专家。
刘博
杭州安恒信息技术股份有限公司 首席科学家