网络行为研究主要是指对网络行为主体进行行为轮廓的描述和建模。根据目的是否具有安全威胁可将网络行为划分为异常行为和正常行为,正常行为指的是符合网络行为主体的正常行为规律的网络行为,异常行为指的是偏离正常行为规律和模式的网络行为,网络攻击行为是异常行为,异常行为中不只包含攻击行为。根据IP地址交互行为方式可将网络行为划分为一个IP地址对一个IP地址的网络行为、一个IP地址对多个IP地址的网络行为、多个IP地址对一个IP地址的网络行为和多个IP地址对多个IP地址的网络行为。根据网络行为主体的对象数目不同,可将网络行为划分为网络个体行为和主机群行为,主机群行为是由网络个体行为构成的,主机群行为离不开网络个体行为,但主机群行为并不是网络个体行为的简单相加;网络环境中存在主机群行为,每个主机群由很多网络个体构成的,最大的主机群相当于全体网络行为主体的集合,其网络活动的体现就是网络行为。
综上所述,本书系统总结了网络行为分析的相关研究背景和最新进展,探讨了该领域的发展趋势和存在的问题,重点针对“整体”“个体”“主机群”网络行为的研究现状进行了系统的对比和总结,分析了网络行为特征和异常检测方法在检测率、运行效率、全面性和新型异常行为的识别能力等方面的不足。
1.全球视角
从Web of Science数据库中搜索用户行为分析、用户画像、异常检测的关键词完成检索,并通过选择领域、识别特定类别(包括研究性文章、综述性文章、会议文章)来过滤和确定相关文献。将数据导出后,用CiteSpace生成关键词共现知识图谱,共得到127个关键词节点以及307条关键词间连线,并得到关键词可视化界面,如图1-1和图1-2所示。
关键词节点的大小代表关键词出现的频次。图1-1中标签大小与其出现频次成正比,各点之间的连线反映了该领域关键词之间的合作关系及密切程度。从关键词热点图谱,可发掘大数据背景下用户行为画像研究领域的全球范围研究热点。频次高的关键词代表一段时间内研究者对该问题的关注热度,CiteSpace软件统计了关键词的词频及初始年的分析结果,词频显示出现的次数,次数越多表明该关键词的热度越高。图1-1中“anomaly detection”“intrusion detection”“machine learning”出现的次数很多,分别为196次、118次、96次,出现的初始年份均为2005。
图1-1 关键词共现知识图谱
图1-2 研究主题的演变图谱
通过研究主题的演变图谱(图1-2),可以将目前的研究内容归纳为以下两个方面,如表1-1所示。Ⅰ:“anomaly detection”“intrusion detection”“outlier detection”等与异常检测分析相关的名词。Ⅱ:“machine learning”“model”“algorithm”“identification”“classification”“neutral network”等与分析、识别、建模等内容相关的技术描述。
表1-1 关键词词频列表(词频大于90)
2.国内视角
从知网学术期刊数据库收集相关数据,运用CiteSpace对导出的相关文献进行关键词的可视化分析,最终通过关键词共现知识图谱来探寻共享经济和协同消费研究的热点。以“网络行为分析”“入侵检测”和“异常检测”为主题,在中国知网进行精确检索,将来源类别设置为北大核心、CSCD,可得到1640条信息。为得到较为理想的引文数据,对导出的文献信息进行再次筛选,删除相关度较低的论文,共得到843条相关信息。随后,在CiteSpace中进行数据格式转换,时间区间设置为1999~2019(经检测,初始年份为1999年),跨度设为1年。选择关键词进行初步可视化共现分析,以探索大数据环境下网络行为分析异常检测的热点和前沿演进。
随后采用图谱修剪算法(Pruning)的Pathfinder裁剪方法,可生成关键词共现知识图谱,共得到376个关键词节点以及854条关键词间连线,关键词可视化界面如图1-3和图1-4所示。
从关键词共现知识图谱可发现用户画像研究领域的研究热点;词频显示出现的次数,次数越多,表明该关键词的热度越高。图中“入侵检测”“复杂网络”“用户画像”出现的次数很多,分别为361次、236次、59次,出现的初始年份分别为2000年、1996年、2014年。
通过关键词聚类图谱,可以将目前研究内容归纳为以下三个方面,如表1-2所示。Ⅰ:“入侵检测”“异常检测”“攻击图”“网络攻击”等概念化名词。Ⅱ:“复杂网络”“用户画像”“数据挖掘”“特征提取”“大数据”等以网络行为为限定词的行为分析方面的内容;Ⅲ:“防火墙”“态势评估”“僵尸网络”“安全策略”等围绕安全防御技术的内容。
图1-3 关键词共现知识图谱
图1-4 关键词聚类图谱
表1-2 关键词词频列表(词频大于30)
通过CiteSpace产生的聚类标识对文献整体进行自动抽取,最终形成聚类图谱,可以比较全面、客观地反映某领域的研究热点。结合图1-3的关键词出现频次,通过CiteSpace自动聚类,得到可视化的聚类图谱(图1-4),根据关键词聚类图谱,系统统计出了最大的几个主题的聚类:“入侵检测”“复杂网络”“用户画像”“攻击图”“数据挖掘”“特征提取”“流量分析”“异常检测”。如图1-5所示,从发展趋势上看2016年后“用户画像”“大数据”成为该领域研究的热点与前沿。
图1-5 研究主题的演变
网络行为分析的研究工作最早可以追溯到1972年温顿·G.瑟夫(Vinton G. Cerf)博士成立的网络测量组,在此之后一直备受关注。Leland和Willinger等人研究显示流量活动随时间变化具有自相似和长相关性。Hernandez-Campos等人、Stolfo等人提出的行为模式和画像的研究关注于网络应用级。Lakhina等对流量活动的特征分布进行了研究,Lakhina等人指出现有研究能够解释流量突发状况,却忽略了行为模式的动态变化。当前,针对流量活动变化的研究主要是关注网络出口的整体流量活动分析检测,利用面向网络数据包、面向网络流的特征达到分析流量活动规律的目的,并得到了广泛应用。
但随着网络流量的增加和网速的提高,数据包也呈指数级增长,把每个数据包解析并抽取特征需要消耗大量的计算资源,这导致面向数据包特征的检测技术应用难度剧增。鉴于上述问题,基于网络流实时检测异常的技术出现了大量研究,如:Schaffrath等人研究结果表明流量活动的数据包级特征比网络流特征更全面、更准确;Sperotto等人通过隐马尔可夫模型,能够有效识别用户发起的SSH暴力破解事件;Kai等人和Bhange等人利用高斯混合分布模型的统计要素检测用户事件导致的流量活动变化;Fawcett等人通过数据包载荷的熵值,有效识别加密流量,并利用随机数算法发现流量活动波动下的用户窃取数据的行为;Andrysiak等人利用ARFIMA模型量化原始流量和预测流量的差异性,以发现不期望的用户事件,随之出现了大量研究;徐久强等人提出基于复杂网络平均度指标的异常检测算法,研究发现网络模型能合理地描述网络流的依赖关系,该模型采用了时间戳、源IP地址和目的IP地址三个特征,并提高了异常行为检测的准确率;杨茹等人通过时间序列描述用户行为,采用FIR滤波处理器、高阶累积量后置聚焦性搜索方法,对用户相似度系数进行差异特征提取,提高了检测率的同时也降低了误检率;Nguyen等人采用Genetic Algorithm(GA)、Fuzzy C-Means clustering(FCM)和Convolutional Neural Network(CNN)算法构建了一个三层深度特征抽取器,应用于网络异常检测。
大量研究者用基于行为的方法解决了异常流量检测的新问题,其中Botnet行为分析较多见,如Zhao等人和Liu等人。Shen等人研究发现自然的HTTP请求和流之间的动态关系,提出了一个基于网络行为的隐蔽通道检测方法,解决了HTTP隐蔽通道不可探测性问题。Seo等人利用从多个客户端收集网络访问记录,分析数据中网络行为的共同点以及通过网络发起的攻击。利用网络访问记录,提出了一种通用行为的网络攻击检测系统。LIN等人设计并实现了一个基于深度学习的动态网络异常检测系统,利用长短期记忆(Long Short Term Memory, LSTM)建立了一个深层神经网络模型,并加入注意力机制(Attention Mechanism, AM)来提高模型的性能。通过SMOTE算法改进损失函数,解决了CSE-CIC-IDS2018数据集中的类不平衡问题。ALAUTHMAN等人回顾了机器学习算法在网络安全的大量研究和应用情况,对机器学习的5个算法进行了比较,旨在建立可以用于检测僵尸网络的模型。Villacorta等人和Raj等人提出了一种单分类器的机器学习方法来检测物联网设备的僵尸网络,来改进物联网设备的安全系统。
综上所述,网络行为异常检测技术是指在一段时期内建立一个正常网络行为主体基线,确认正常网络行为的相关参数定义后,任何背离这些参数的行为都被标记为异常,这尤其适用于检测未知、新型攻击,有效弥补了利用规则、知识库检测已知攻击的安全防御技术的不足。上述大量工作都是关注于流量强度的网络流特征,如IP地址个数、端口数、持续时间、字节数量和数据包个数等,形成了流量时间特性研究观点,已经成为网络监控有力的分析工具。但基于时间尺度的流量分析方法虽然能够有力地解释流量的突发模式,但较少关注网络行为模式的时间变化。因此,本研究引入图演化理论,通过流量图形式化表征行为模式开展了量化描述流量图结构特性研究。
整体网络行为的分析检测工作主要关注网络边界数据,研究全体网络行为主体呈现出的网络行为变化。利用面向网络数据包(Packet-Level)和面向网络流(Flow-Level)的特征达到分析整体网络行为规律的目的,已经得到了广泛应用。对时序数据进行网络行为异常检测的研究中,首先采用的是深度包检测技术,其优势在于基于IP数据包抽取的网络行为特征,具有更全面、更准确和更精细的描述性,面临的问题在于随着网络流量的增加和网速的提高,IP数据包数量呈指数级增长,解析每个数据包并抽取特征需要消耗大量的计算资源,这导致应用面向IP数据包特征的检测技术难度剧增。鉴于上述问题,出现了大量基于网络流的时序数据异常检测技术研究。Sperotto等人利用基于网络流的时间序列技术构建了隐马尔可夫模型,实现了SSH暴力破解的攻击检测。Kai等人利用高斯混合分布模型建立正常网络行为基线,通过定义的上边界和下边界对结果进行时序的统计方法分析,检测超出边界的异常信号。Andrysiak等人定义了ARFIMA模型,利用原始流量数据和预测流量数据之间的关系判断当前网络流是否异常。Leland和Willinger等人的研究显示所观测到的流量随时间的变化具有自相似和长相关性。Bhange等人应用高斯混合分布模型研究定义了一种统计方法来分析网络流量的分布,以识别正常的网络行为。He等人定义了源(目的)IP地址、源(目的)端口号、字节数和协议等网络流特征的熵值,构建了多变量时间序列关联规则挖掘(Multivariate Time Series Motif Association Rules Mining, MTSMARM)的时序图模型,通过发现不期望的子结构检测具有异常模式的网络行为。
研究时序数据波动,进行网络行为异常检测,引起了大量研究者的关注,此时研究工作主要关注网络流特征,如IP地址个数、端口数、持续时间、字节数量和IP数据包个数等,研究成果已经成为网络监控有力的分析工具。虽然基于数据包方法的检测精确率上高于基于流的检测技术,但是鉴于应用难度大,研究者主要关注面向网络流数据的检测方法。针对其相对数据包特征信息量少、无法有效反映整体网络流量特性的局限性。图分析方法开始应用于网络行为分析研究中,研究者开始关注网络行为主体(或称为节点)之间的交互关系,这体现了整体通信模式的结构属性。相较于基于时间尺度的流量分析方法能够有力解释流量的突发模式,图分析方法可以发现那些没有导致网络流特征发生变化的异常网络行为。研究者通过流量图形式化表征通信模式,开展流量图模型的属性研究,关注安全事件导致通信模式的异常。
1.主机系统级安全监测研究
通过研究基于恶意软件共性特征检测主机是否感染恶意软件,需要采集僵尸网络的DNS、TCP流量和进程等数据样本,主机必须安装代理软件,分析感染恶意软件主机的行为表现。采用基于知识库的检测方法,可以将主机的对外流量分为期望和不期望,实现异常流量检测。常见的主机流量特征包括主机流数、发送包数、发送字节数、持续时间、端口数、TCP流数、UDP流数、SMTP流数、字节数方差、数据包数方差、持续时间方差、数据包均值和持续时间均值等特征。
还可以通过分析API调用序列和系统资源使用等数据实现主机检测,这种技术同样受限于系统权限和软硬件版本,软件部署和应用难度大。上述方法主要通过分析系统特权进程的系统调用序列、操作系统审计日志以及系统文件和目录完整性来检测主机系统行为是否异常。可见,通过分析主机系统状态实现主机检测的研究工作大多依赖于安装代理软件。利用安全防护软件采集主机属性以分析和研究主机安全性,具有较强的平台依赖性。然而,在主机沦陷后,攻击者获取了系统最高权限,执行数据窃取行为,一旦该主机系统状态的变化不足以发现受害主机的恶意网络行为,主机网络行为异常就是发现数据泄露的关键。
2.主机网络级安全检测研究
Lee等人采用了数据包级、网络流级和主机级的特征描述主机网络行为,抽取了特征集,即发送字节数、接收字节数、单向和双向的源地址数、目的端口数和邻居主机数,并在某高校流量数据中进行了验证,根据特征的标准偏差和均值的相对变化发现网络中的重要主机。苏璞睿和冯登国等人通过基因规划构建主机异常入侵检测模型,尝试对检测模型的准确性和效率进行改进。皮建勇和刘心松等人利用有向无环图,定义了基于访问控制的主机异常检测模型。
于晓聪等人采用熵值法发现流量的异常点,而后以主机通信模式的相似性确认“僵尸”。该研究以企业级网络为背景流量,结合实验环境构建了两个僵尸网络平台,并抽取了主机通信模式特征:总数据包数、总字节数、平均每个数据包的字节数。Arshad等人从Botnet本质特征(NetFlow特征)的相似性在一定时间窗口发生攻击行为的角度,定义了高速网络中采用两步聚类和相关性的方法识别感染Botnet的主机。Fawcett等人通过计算数据包载荷大小的熵值有效识别加密流量,并能够在三种不同的数据集中,利用随机数算法从正常的流量中区分数据泄露。Wei等人采用某高校流量对主机网络行为特征进行聚类分析,有效检测Slammer爆发和感染主机,提出特征集:主机IP、与主机通信的去重IP地址数、主机所发送的总字节数(TCP和UDP)、TTL均值、开放端口列表、主机发起的目的IP、字节数、平均持续时间和平均包数、主机通信相似性。李川等人定义了采用复杂网络的度、自网络包含的边数、参与三角形个数3个基本特征,研究网络结构的演化过程,实现动态网络的角色预测,并将静态网络的角色发现扩展至动态网络。
Karagiannis等人将主机行为划分为社会层、功能层和应用层,基于上述3层研究主机通信模式,实现了只用数据包头部信息就能进行精确的流量分类。Hernandez-Campos等人、Stolfo等人提出的通信模式和行为轮廓的研究工作都是关于网络应用级的,而不是广泛的网络流量。Xu等人设计了一个通用的主机行为轮廓,能够简洁、直观地描述用户活动和行为。它定义了基于数据挖掘、熵的方法,针对Internet骨干网流量建立流量通信模式,实验结果表明应用网络行为轮廓的方法可以检测不期望的流量和异常。Lakhina等人的研究与建立网络行为轮廓的思路相似,通过分析网络流量的特征分布实现自动化分类方法识别流量异常。所提出的基于主机网络行为轮廓提供了一个通用的框架来分析网络个体行为,对前期Lakhina等人对网络流量特征分布的研究工作进行了扩展。这些方法将流量汇聚到主机层面,通过分析数据中连接、开放端口和应用协议等网络行为特性发现是否存在异常流量,这也是本书研究的内容。
综上所述,已有多种异常检测方法,不同的检测方法采用了一种或多种数据源分析网络个体行为规律,但要部署代理软件采集数据,具有平台依赖性;针对网络个体行为特征的研究,忽略了特征值之间的相关性,以及特征值与时间的相关性;其次分析发现现有网络个体行为异常检测研究,主要是对主机应用分类或检测已知攻击,而针对网络个体行为特征及其时序属性扰动的异常检测研究很少涉及。
当前,利用图分析技术研究主机群行为的研究领域主要面向物理、生物和社会关系,如合作者、电网、交通、P2P网络、联合采购产品、文章引用,在计算机网络领域的应用主要面向Web页面引用、收发邮件、电话通信等数据的研究。主机群行为研究揭示和分析社区演化事件,涉及两个重要的研究领域,即社区发现和图的动态演化。Girvan和Newman等人于2002年定义了社区结构检测方法后,出现了大量关于主机群行为检测方法的研究。同时,另一部分研究者Barabâsi等人开始着手对度分布、聚类系数等属性进行分析、解释和建模动态演化的研究。但现有研究者很少关注社区发现和整个动态图的演化。Chakrabarti等人开始着手分析社区演化本身的研究。尤其值得关注的是Granell等人定义了一个基准描述演化,并将它广泛应用于生物医学、社交网络、学术论文应用分析等领域。Jakalan等人利用边界流量构建二分图,采用了社区发现方法,聚合具有相似社会行为的主机,识别异常IP地址。此外,Asur等人、Palla等人、Greene等人、Bródka等人、Chen等人和Tajeuna等人都从不同角度定义了动态演化事件,尽管上述研究中演化事件算法的定义和方法有所不同,但其定义从整体上都具有相似性,常见的演化事件如表1-3所示。
表1-3 演化事件
这些研究涉及的数据包括电话通信、合作作者、维基百科、药物、移动运营、邮件等数据集,其共性在于能够通过图实现形式化,从而挖掘网络节点之间的交互关系。鉴于不同数据集的领域属性,演化事件和识别方法存在一定的差异,研究者开始针对如何聚类主机群、定义演化事件展开相关的研究工作,如表1-4所示,检测的演化事件也有所不同。
表1-4 演化事件研究工作
大量现有研究表明网络行为具有分布式传播和演化的属性,网络行为具有空间属性,网络行为主体之间,尤其是具有交互关系的网络行为主体之间具有强相关性。现有研究工作表明,面向具有主机群性、协同性和大规模性主机的网络交互行为、通信模式,无法有效地从主机的网络个体行为特征的角度进行分析。
综上所述,已有研究工作主要关注分析图节点关系的静态属性和社区本身,目的是将观察事实抽象为图模型后进一步理解和解释实际行为。对于网络行为潜在的社会化关系,没有考虑网络交互过程对网络行为主体关系和属性的影响,导致网络主机群事件的难以感知等。因此,本研究以异常检测为目的,将主机群的研究与网络行为实际属性相结合,对网络行为中汇聚成群的主机群进行深入分析。
在网络行为分析中,利用图分析技术(Graph Analysis, GA)发现的通信行为关系的本质,可以挖掘来自网络流量的网络通信的信息,发现网络通信中最有影响力的主机节点,聚类发现具有紧密通信的主机群等。CISCO基于图分析识别安全威胁的技术架构,卡内基·梅隆大学(Carnegie Mellon University)组织了致力于网络流量分析会议(FloCon, 2011)之后,开始出现一系列利用图分析技术分析流量数据的研究,如由美国太平洋西北国家实验室于2013年提出采用了图分析技术分析流量的思路、基于图特征角色挖掘的网络安全应用技术等研究工作。林肯实验室(MIT Lincoln Lab)于2013的SIAM会议中指出将大规模图分析技术应用于网络安全领域,其优势是能够从大规模、多源和噪声数据中发现微妙的模式,从而实现网络攻击和恶意软件的检测。
1.网络分析技术在流量网络行为分析领域
针对高速网络环境数据包检测方法具有局限性,以及网络流特征数量少以至于描述网络行为具有局限性等问题,研究者基于图分析技术定义了流量图(Traffic Activity Graph, TAG)的研究方法。Jin和Sharafuddin等人提出使用流量图标识网络行为,构建了一种基于TNMF分解提取核心主机的交互模式和其他结构属性的流量统计图分解技术。Francois等人定义了利用Flow构建图分析网络通信模式,通过基于密度的聚类算法——DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法对权威分值(Authority)和中心分值(Hub)两个特征聚类,利用图的Authority和Hub特征值检测僵尸网络。Ishibashi等人指出目前大量研究都是基于时间序列分析数据量、数据包和字节数等特征的异常检测方法,没有将基于时间序列的通信模式描述为图模型的异常检测方法,首次定义了两个图的相似性和检测异常图的方法以识别低强度的网络异常事件。Ding等人利用图的方法分析网络通信以识别恶意网络源。Noble等人定义了结合图理论描述SSH通信,建立了时间特征的图数据模型,通过统计方法预测未来流量以检测时间相关的异常。Iiofotou等人着重分析图的度分布、连通分量个数等特征。Collins等人研究了图连通总数及其随时间变化的属性。
2.图分析技术在网络个体网络行为分析领域
使用图数据表示网络具有得天独厚的优势。随着流量分析技术和方法的发展,用户个体行为画像通过操作主机以流量基本属性描述逐渐不能满足实际应用的要求,为了用有限的数据源获取更多的个体画像特征,大量研究者开始探索,通过属性关系图(或称为Graphlet关系图)表示、挖掘个体画像的行为模式。这个关系图中的列数由采用的元组数决定,每个元组位于这个图中的一列,相邻两列的节点存在连接关系,不相邻列的节点之间没有连接关系。Graphlet关系图最初是由Karagiannis等人在研究流量应用分类时提出的用于解释不同类型的应用的一个描述方法,描述某个主机节点与其他节点之间的连接模式,采用的四元组为源IP地址、目的IP地址、源端口号和目的端口号,实现了以可视化方式刻画FTP、P2P、Mail、Web、DNS服务器和网络攻击等。随后Karagiannis等人对属性关系图展开了研究,此时采用五元组刻画主机画像,并检测异常用户事件,在后面的研究中,还扩展为6列,研究成果表明该方法适用于行为画像构建和检测画像特征的变化。由于采用Graphlet描述的主机画像是已知的、预定义的、典型的行为模式,因此无法识别未定义类别,Himura等人通过抽取主机Graphlet的特征并进行聚类,再从每个类重建概要Graphlet信息,实现流量分类和识别新应用,实验结果表明优于有监督的Graphlet方法(BLINC)、基于端口号和基于负载的研究方法。Promrit等人在研究中引入了时间轴和平行坐标,量化可视化主机通信行为,利用朴素贝叶斯分类器对流量进行分类,并实现了网络取证分析。Bocchi等人选择了图结构特征、HTTP、DNS和主机名文本特征,通过分析恶意流量行为的延续性,提出了基于协议交叉的MAGMA检测方法,但可检测异常仅有DDoS攻击。Mongkolluksamee等人通过抽取Graphlet属性和数据包大小分布属性,在3分钟内随机选择50个数据包就能够精确识别移动网络的应用类别。Glatz等人根据柏克利套接字中关于网络连接应用的基本描述,利用五元组属性建立Graphlet关系图,将终端主机作为开始和结束的图节点,感知用户事件驱动下主机行为的态势,但并未对Graphlet量化进行研究。
由此可见,利用图的研究成果,可以更加深刻地认识主机之间通信模式的复杂性,对于网络分析人员认识网络行为的各种表现和网络事件具有重要的意义。以可视化的图形式研究网络通信的复杂系统,可以加深人们对网络交互行为的深入理解。
3.图分析技术在角色行为分析中的应用研究
研究者基于图分析技术提出了流量行为图(Traffic Activity Graph, TAG)的研究方法。Eberle W使用流量图标识网络流量行为实现内部威胁检测,构建了一种主机交互模式和其他结构特性的流量统计图分解技术。Ding等人利用流量图的建模方法分析用户主机的交互行为,实现恶意用户源的识别。Glatz等人建立了以终端主机作为开始和结束节点的五分图,分析用户主机的网络行为,研究结果显示能够区分常见的主机角色,如客户端、服务器(如80端口开放的TCP的服务器)、P2P角色(端口号多数大于1024,或者与远程主机通信会同时使用TCP和UDP)。Pacheco等人在流量分类研究中指出,聚类思路有利于在网络流量中发现一些新型异常行为,在这一领域的研究应该得到扩展。我们采用角色分组也正是采用主机行为聚类,为每个主机标记角色,探索发现新的角色或者主机角色的异常偏离的方法。Paudel等人利用主机类别和通信关系构建图,通过基于图的方法识别刚刚开始的DoS攻击。
综上,现有研究成果显示,基于网络行为分析的异常检测方法可以更好地捕获网络流量数据,并基于流量特征和机器学习算法进行一系列的分析和处理,对网络中的主机进行分类,从而描述主机的角色行为属性及其角色行为的轮廓基线,获得更高的检测准确率。
4.图分析技术在主机群网络行为分析领域
图的动态演化本身即是群体行为分析的重要研究领域之一。Girvan和Newman等人提出了节点簇检测方法后出现了大量关于群体行为识别方法。Casas等人利用边界流量构建二分图,开发了网络异常检测和隔离算法,以处理大规模网络的异常识别。Barabâsi等人重点关注节点度分布、聚类系数等属性,用于分析、解释和建模群体动态演化事件的研究,此时研究者较少关注节点簇发现和整个动态图的演化过程。Chakrabarti等对节点簇聚类结构的动态演化规律进行了研究。Chen等人提出了一种无参数和可扩展的算法,可以检测6种基于节点簇的演化事件,包括生长、萎缩、合并、分裂、出生和消失,实验验证了算法的可用性和有效性。尤其值得关注的是Granell等人提出的一个描述节点簇演化事件的通用框架,该框架已经广泛应用于生物医学、社交网络、学术论文应用分析等领域。Zhu等人利用基于图演化理论提出了“复杂网络的度、网络涵盖的边、网络中的三角形数量”等3个关键的演化事件特征来分析节点簇结构变化,系统阐述了节点簇处于演化事件时其网络结构的变化过程,进而能够有效探测群体行为的发生。Jakalan等人利用边界流量构建二分图,采用节点簇的图聚类方法,发现具有紧密交互关系的用户主机,并能够识别异常用户IP地址。
综上所述,图分析技术已广泛应用于各个研究领域,如计算机视觉、自然语言处理、检测欺诈、网页排名和推荐系统等,它提供了一种强大的方式来表示和利用数据之间的连接,并从这些有关联的数据集中抽取出有价值的信息,使人们更加深入地理解数据。
从前面对研究成果的分析来看,利用流量活动数据描述用户画像,研究用户事件驱动下流量特性的演化过程,形成了两个方向发展,即流量特性和行为模式。在流量特性上,利用数据包和网络流,结合数据挖掘、信号处理、时间序列和机器学习等技术,都是经典理论和技术与之对应,且有些成果已经成为强大的用户行为分析工具;在行为模式上,主要涉及将原始数据抽象为数学模型,利用节点和用户的映射进行网络结构的研究,结合复杂网络理论与技术,关注用户行为呈现出的结构化演化过程。但我们也应该看到,虽然每个方向的技术与理论已经发展成熟,但是大多数用户行为画像都是基于单一视角进行研究的,而现实中用户是多变、多面的画像。用户行为画像的建模技术和理论是实用、全面和动态的,更重要的是在用户行为画像的刻画研究中,对用户特性和行为模式的信息融合才是最终目的。
由此可见,传统的模式匹配方式无法有效识别新的攻击模式,而机器学习算法应用于安全态势仍有许多问题亟待解决。因此,利用图的研究成果可以更加深刻地认识用户事件和用户之间行为的复杂性,对于认识流量活动的各种表现和用户驱动下事件具有重要的实践价值。但对于大规模图数据异常检测而言,早期的方法往往不能完成。近年来,随着网络规模的扩大和计算能力的提升,图异常检测方法不仅局限于网络结构特征,还需要综合考虑节点的内容信息、标签信息以及行为信息,即“图演化”,从“实体、关系、子结构和事件”多维度进行动态异常检测研究。
1.个体行为画像
关于对用户个体行为画像进行数学建模的问题,目前的研究主要是两类信息源:系统级和网络级。系统级利用用户操作主机的日志、进程和文件等数据,具有平台依赖性,部署、应用和推广的难度大;网络级基于数据包和网络流数据,将基础属性和统计特征相结合,适用于发现流量活动突发状况,但它却忽略了行为模式的动态变化,由于可用属性还出现了Graphlet关系图量研究,主要针对用户主机类型的分类,而对属性关系图量化扩展描述特征的研究不够深入,尤其是对属性元组的选择和排列顺序缺乏对比和评估,真实的异常数据不够全面、规范,需要融合网络的结构信息、标签信息和内容信息,构建充分利用多维度信息的异常检测方法。
因此,本书拟在上述研究的基础上,探索个体行为画像可用、有效特征集的扩展方法以及从不同视角获取隐式信息并对其进行融合,结合网络拓扑结构特性,研究以流量图为载体引入复杂网络理论,构建基于特征工程与流量图的个体行为画像细粒度模型,能够检测出更多、更细微的异常活动。
2.角色行为画像
关于用户角色行为画像进行属性建模的问题,目前的研究主要利用聚类算法,将描述用户的多维特征进行分类,形成不同特性的用户集合,通过人工分析标记每类用户,旨在揭示网络中的逻辑结构。鉴于不同的应用场景,研究者关注所有聚类结果的目的是进行用户分类,而只关注某一类用户的目的是对其进行识别或检测。由已有研究成果可知,研究目标是分类或检测,用户自身的属性抽取尤为重要,同时人工标记耗时、费力,缺乏自动化机制,而且在实际应用环境中,用户角色虽然呈现出稳定性,却也并非一成不变,需要定时更新,算法有效性与算法可扩展性的结合较为困难,急需自动化特征提取技术与异常检测的结合。
因此,本研究拟在个体行为画像的基础上,从用户属性提取、角色标记自动化和自学习更新算法几个方面,基于图演化理论进行角色行为画像的纵深研究,构建具有特征空间聚合、高相似度、强相关性的角色行为画像动态学习模型。
3.群体行为画像
关于用户群体行为画像建模的问题,国外主要在发现群体结构方面进行了研究,方向集中于社区检测,但大多是研究静态演化的社区检测,并未涉及演化行为识别和异常主机群检测。针对该问题,国内研究成果不多,尤其是计算机网络领域。目前,通过复杂网络理论进行数学建模,挖掘节点之间的交互关系的紧密和亲疏,但鉴于不同研究领域的本质特性,演化事件的定义和识别方法各有差异。国内外研究关注节点簇本身和节点关系结构的静态特性,针对识别群体、演化事件展开的研究工作的目的是将观察事实抽象为图模型后进一步理解和解释实际行为。对流量活动中用户潜在的关系结构而言,没有考虑用户交互过程对节点结构和特性的影响,缺乏时间维度演化机理的量化分析,充分利用网络的多元信息进行异常检测充满挑战,急需加强图异常检测的可解释性研究。
因此,本研究拟在群体行为已有研究成果的基础上,结合实际用户行为的特性,建立基于动态图演化机理的群体行为画像模型,挖掘汇聚成簇的用户群动态演化的量化方法,弥补个体行为画像中缺乏用户关系亲疏的研究机制,进而尝试利用更加泛化的异常描述方法,解释异常实例的特殊性成因,并结合可视化技术,让分析结果更加清晰。