大型活动、大流行病、严重事故、环境灾害和恐怖袭击对公共安全和秩序构成了重大威胁。城市数据的广泛可用性有助于我们从过去的事件中学习如何正确处理这些威胁。它还使我们能够检测到威胁,甚至提前预测它们。
城市异常可能是由车祸、交通管制、抗议、体育、庆祝、灾难和其他事件引起的。检测城市异常可以帮助缓解拥堵、诊断意外事件,并便于人们在周围移动。
Liu等人 [93] 通过主要道路将一个城市划分为不相交的区域,并基于在两个区域之间行驶的车辆的交通状况来梳理两个区域之间的异常连接。他们将一天的时间划分为时间槽,并为每个连接识别出三个特征,包括在一个时间槽内经过该连接的车辆数量(#Obj)、向给定目的区域移动的车辆比例(Pct d )以及从给定源区域移出的车辆比例(Pct o )。如图2.19a所示,对于连接 a → b ,#Obj=5,Pct d =5/14,Pct o =5/9。对这三个特征分别与前几天相应时间槽的特征进行比较,以计算每个特征的最小失真(即minDistort #Obj、minDistort Pct d 和minDistort Pct o )。然后,如图2.19b所示,时间槽中的连接可以表示在一个三维空间中,其中每个维度表示一个特征的最小失真。为了归一化不同方向上的方差影响,使用马氏距离来衡量最极端的点,这些点被视为离群值。
在上述研究之后,Chawla等人 [26] 提出了一种两步挖掘和优化框架,用于检测两个区域之间的交通异常,并解释通过这两个区域的交通流量中的异常。如图2.19d所示,在两个区域之间发现了一个异常链接 L 1 。然而,问题可能并不来自这两个区域。在2011年4月17日,由于北京马拉松,北京的交通流量被引导远离天安门广场。因此,从区域 r 1 到 r 2 的北京南火车站的正常交通路线(显示为间隙较密的虚线路径)受到了引导,间隙较疏的虚线路径承载了过量交通。总之,后者路径上的交通流量导致了异常。
在该方法中,给定一个如图2.19c所示的连接矩阵,他们首先使用主成分分析(PCA)算法来检测一些异常连接,这些连接由列向量 b 表示,其中1表示在连接上检测到了异常。基于车辆的轨迹,构造一个邻接连接-路线矩阵 A ,如图2.19d至图2.19g所示。矩阵的每个元素表示路线是否经过连接,1表示是,0表示否。例如,路线 p 1 经过 l 1 和 l 2 。然后通过求解方程 Ax = b 来捕捉异常连接与路线之间的关系,其中 x 是一个列向量,表示哪些路径会导致出现向量 b 所示的这些异常。使用L1优化技术,可以推断出 x 。
图2.19 基于距离检测城市交通异常
Pang等人 [109] 采用似然比检验(LRT),这种方法之前已在流行病学研究中用于描述交通模式。他们将城市划分为均匀的网格,并计算在一段时间内到达网格的车辆数量。目标是识别具有在统计上最显著偏离预期行为(即车辆数量)的连续单元集合和时间间隔。那些似然比统计值的对数下降到 χ 2 分布尾部的区域可能存在异常。
Pan等人 [108] 根据驾驶者在城市道路网络上的路线行为来识别交通异常。在这里,一个检测到的异常由道路网络的子图表示,其中驾驶者的路线行为与他们的原始模式有显著差异。然后,他们试图通过挖掘异常发生时人们在社交媒体上发布的相关代表性术语来描述一个检测到的异常。检测这类交通异常的系统对驾驶者和交通当局都有益处(例如,通过通知接近异常的驾驶者并建议替代路线,以及支持交通堵塞的诊断和疏散)。
Zheng等人 [192] 检测了一种集体异常,这表示在连续几个时间间隔内,一组附近位置在多份数据集共同观察到的现象方面表现出异常。在这里,“集体”有两种含义。
一种含义是,某个异常在单个数据集上可能并不那么异常,但当同时检查多个数据集时,它被视为一个异常。如图2.20所示,在位置 r 1 刚刚发生了一个不寻常的事件,影响了其周围位置(例如,从 r 2 到 r 6 )。因此,从周围位置进入 r 1 的交通流量增加了10%。与此同时,这些位置周围的社会媒体帖子流量和自行车租赁流量略有变化。每个单个数据集与其共同模式的偏差并不足以被认为是异常的。然而,当将它们放在一起时,我们可能能够识别出这个异常,因为三个数据集几乎不会同时发生如此程度的变化。
图2.20 基于多个数据集检测集体异常
另一种含义是指时空集体性。也就是说,一组附近位置在连续的几个时间间隔内表现出异常,如图2.20d所示,而如果单独检查,这个集合中的单个位置在单个时间间隔内可能并不异常。例如,从 r 1 到 r 6 的位置在连续的几个时间间隔内(例如,从下午2点到下午4点)形成了一个集体异常。如果我们单独在下午2点检查位置 r 2 ,它可能不会被考虑为异常。它还关联了个别位置和时间间隔,形成了一个事件的全景视图。这样的集体异常可能表示流行病的早期阶段、自然灾害的开始、潜在问题或潜在灾难性事故的起点。
检测集体异常是非常具有挑战性的,因为不同的数据集具有不同的密度、分布和规模。此外,找到集体异常的时空范围也是耗时的,因为有多种方式可以组合区域和时间槽。Zheng的方法由三个部分组成:一个多源潜在主题(MSLT)模型,一个时空似然比检验(ST_LRT)模型,以及一个候选生成算法 [192] 。在主题模型的框架内,MSLT结合多个数据集来推断地理区域的潜在函数。反过来,一个区域的潜在函数有助于估计该区域生成的稀疏数据集的潜在分布。ST_LRT为不同的数据集学习适当的潜在分布,并基于似然比检验(LRT)计算每个数据集的异常程度。然后,它使用天际线检测算法汇总不同数据集的异常程度。
预测城市中人群的流动对于交通管理、风险评估和公共安全维护具有战略重要性。例如,如果我们能够预测人群将到达某个区域,并且知道人群流量将超过该区域的安全容量,就可以启动紧急机制(例如,向人们发送警告并进行交通控制)或者提前疏散人群,从而避免踩踏事件的发生。
Hoang等人 [64] 提出了一种基于大数据预测城市每个区域内人群流动的两种类型的新方法,其中大数据包括人类移动数据、天气条件以及道路网络。如图2.21a所示,一个区域(如 r 1 )被主要道路和两种流动类型环绕,这两种流动类型是:(1)流入,即在一定时间间隔内从某个区域出发的人群流量(例如,人们从停车位开始驾车);(2)流出,即在某个区域内结束的人群流量(例如,人们停止驾车并停车)。直观上,流入和流出可以追踪人群的来源和目的地,从而总结人群的流动情况,用于交通管理和风险评估。这个问题与预测每个个体的移动和每个道路段的交通状况不同,后者计算成本高昂,并且从城市规模的公共安全角度来看并不必要。
图2.21 基于多个数据集检测集体异常
为了构建一个实用的城市交通预测解决方案,他们首先使用城市的道路网络和历史人类移动记录将城市地图划分为区域。为了模拟影响人群流动的多个复杂因素,他们将流动分解为三个组件:季节性(周期性模式)、趋势(周期性模式的变化)和残差流动(瞬时变化)。季节性和趋势模型构建为固有高斯马尔可夫随机场,这可以处理噪声和缺失数据,残差模型则利用了不同流动类型和区域之间的时空依赖性以及天气的影响。
遵循这一思路,Zhang等人 [168-169] 提出了一种基于深度学习的预测模型,称为ST-ResNet,以集体预测城市中每个区域的人群流动。他们根据流动数据的空间和时间特性构建了ST-ResNet的架构。它由两个主要部分组成:时空建模和全局因子建模。时空组件采用卷积神经网络的框架来同时模拟近距和远距空间依赖性、时间接近性、周期和趋势。全局组件用于捕捉外部因素,如天气条件、时间(一天中的时间)和星期几。ST-ResNet使用北京出租车数据、贵阳环检测器数据和纽约市共享单车数据进行了评估,展示了其超越四种基线方法的优点。