有效的规划对于建设智慧城市至关重要。制定城市规划需要评估一系列的因素,如交通流量、人类移动性、POI以及道路网络结构。这些复杂且迅速变化的因素使城市规划变得非常具有挑战性。
传统上,城市规划者依赖于劳动密集型的调查来支持他们的决策。例如,为了了解城市通勤模式,进行了一项基于通行调查数据的研究 [7,61,71] ,但通过调查获得的信息可能不够充分且不够及时。
最近在城市空间中生成的广泛可用的人类移动数据实际上反映了城市的基本问题,为城市规划者提供了更好地制定未来规划的机会 [185] 。
Zheng等人 [185] 通过分析33000辆出租车在三年内产生的GPS轨迹,发现了某城市交通网络中的潜在问题。他们首先使用主要道路(如高速公路和主干道)和地图分割方法 [155] ,将该城市区域划分为不相交的区域,如图2.2a所示。从每个出租车轨迹中提取乘客的上下车点,以制定这些区域之间的始发地-目的地(OD)转换。然后基于OD转换构建区域图,其中节点是一个区域,边表示两个区域之间转换的聚合,如图2.2b所示。
图2.2 使用出租车轨迹查找某城市道路网络的潜在问题
使用数据驱动的方法,一天被划分为几个时间段,这些时间段对应早晨高峰时间段、晚上高峰时间段以及其余时间段。对于每个时间段,根据该时间段内的出租车轨迹构建一个区域图。
如图2.2c所示,基于相关出租车轨迹,为每条边提取了三个特征,包括出租车的数量| S |、这些出租车的平均速度 E ( V )以及一个绕道比例 θ 。在三个特征维度的空间中,用点表示边,具有大| S |、小 E ( V )和大 θ 的点可能是潜在问题,也就是说两个区域之间的连接不足以支持它们之间的交通流动,导致车流量大、速度低和绕道比例高。
使用天际线检测算法 [20] ,可以从每个时间槽的数据中检测到一组点(称为 天际线边 )。如图2.2g所示,如果不同时间槽的天际线边在空间上有一些节点重叠并且在时间上相邻,那么它们可以连接起来形成天际线图。
最后,通过在多天内挖掘天际线图,可以获得一些子图模式 [146] ,例如在所有三天中都发生的 r 1 → r 2 → r 8 → r 4 。这些模式代表了道路网络中的潜在问题,显示了各个区域之间的相关性,并避免了可能由某些交通事故引起的虚假警报。
通过比较连续两年检测到的结果,研究甚至可以评估新建设的交通设施是否运作良好。正如图2.2d~图2.2f所示,2010年检测到的潜在问题在2011年消失了,这是因为新开通了一条地铁线路。简而言之,这条地铁线路在解决问题方面发挥了重要作用。
一个城市的发展逐渐孕育出不同的功能区域 [7] ,如教育区、居民区和商业区,这些区域满足不同人的需求,并为构建大都市区域的详细框架提供了宝贵的组织技术。无论是由城市规划师人工设计的,还是由人们的实际需求自然形成的,这些区域都可能随着时间改变其功能和边界。对城市中功能区域的了解可以帮助校准城市规划,并促进其他应用,如商业场所选择和资源分配。
多年来,已经在地理信息系统(GIS)和城市规划领域对功能区域进行了研究。这些领域的方法通常采用聚类算法来识别功能区域 [77] 。例如,一些基于网络的聚类算法(如,谱聚类)用来根据区域间的互动数据(如经济交易和人类流动)来识别功能区域。还有一部分研究是关于使用分类算法根据卫星遥感数据来确定区域土地利用的 [132] 。
最近,用户生成的内容,如社交媒体和人类移动性,已用于研究区域主题。例如,Yin等人 [150] 利用从Flickr获取的带有地理标签的照片研究了美国一些地理主题(如海滩、徒步旅行和日落)的分布。Pozdnoukhov等人 [114] 探索了基于大量地理推文的话题内容的空间时间结构。Qi等人 [115] 观察到,某个区域内出租车乘客的上下车记录可以反映该区域内社会活动的动态。
Yuan等人 [154] 提出了一种框架,该框架利用区域间的人类移动性和区域内的POI来 发现城市中功能不同的区域 (称为DRoF)。例如,图2.3a中不同色块表示城市的不同区域。然而,一个区域的功能是复合的,由多个功能的分布来表示。实际上,颜色相同的区域共享类似的功能分布。
另外,即使一个区域被认定为具有某种功能,也不意味着该区域的每个部分都服务于这个功能。例如,大学周围可能有一些购物中心。因此,给定一个功能,Yuan等人 [162] 进一步确定了其内核密度分布。图2.3b显示了城市商业区域的密度分布,颜色越深,该位置可能是商业区的概率越高。
图2.3 使用人类移动性和POI识别城市的功能区域(见彩插)
在他们的方法中,首先将城市按照主要道路(如高速公路和城市快速路)分割成不连续的区域。每个区域的功能是通过一个基于主题的推理模型 [100] 来推断的,该模型将一个区域视为一个文档,将一个功能视为一个主题,将POI的类型(例如,餐厅和购物中心)视为元数据(例如,作者、所属机构和关键词),将人类移动模式(当人们到达/离开一个区域时以及人们来自何处并离开去向何方)视为单词。因此,一个区域由功能的分布表示,每个功能又进一步由移动模式的分布表示。
在这里,人类移动性可以区分属于同一类别的POI的受欢迎程度。它还表明了区域的功能,例如人们在早上离开住宅区,在晚上返回。具体来说,人类移动性数据是从2010年和2011年分别产生的三万三千多辆出租车的GPS轨迹中提取的。最后,根据聚类结果和人类标注,确定了九种功能区域。
政府定义的区域边界可能不符合人们跨空间互动的自然方式。根据人与人之间的互动发现区域的实际边界可以为政策制定者提供决策支持工具,建议城市的最优行政边界 [118-119] 。这一发现还有助于政府理解城市领土的演变。这类研究的一般思路是首先根据人类互动(例如GPS追踪或电话记录)在地点之间建立一个网络,然后使用一些社区发现方法来分割此网络,该方法可以发现集群内的地点之间互动比集群间的更密集的地点集群。
通过分析从英国一个大型电信数据库中推断出的人类网络,Ratti等人 [118] 提出了一种细粒度的区域分割方法。给定一个地理区域和对其居民之间联系强度的某种测量,他们将该区域分割成更小、不重叠的区域,同时最小化对每个人联系的中断。该算法产生了在地理上连贯的区域,这些区域与行政区域相对应,同时意外发现了以前只在文献中假设的空间结构。
Rinzivillo等人 [119] 解决了在更低空间分辨率(如市镇或县)下寻找人类移动边界的问题。他们将车辆GPS轨迹映射到区域,以在Pisa中形成一个复杂的网络。然后,他们使用一个名为Infomap [122] 的社区发现算法来将网络分割成不重叠的子图。
为了满足城市生活日益增长的需求,我们通常需要建造新的基础设施,如救护中心、公交车站和电动汽车充电站。考虑到人口、天气和交通状况等多种因素,如何放置这些新设施以最大化其功能仍然是对城市规划师的一个挑战。为此,我们引入了四类模型(源自数据科学),可用于资源部署:(1)寻找最佳汇合点;(2)最大化覆盖范围;(3)学习对候选地点进行排名;(4)最小化不确定性。在本节中,我们将关注它们的概念和应用场景。每种模型的详细技术将在第3章中介绍。
这类模型旨在(从许多候选点中)找到一组汇合点,使得一组对象可以以总体最低成本(如时间)到达这些点或从这些点到达。例如,图2.4a显示了七个物体在总的时间或距离最小的情况下可以到达的最佳汇合点。图2.4b给出了这七个对象的两个最佳汇合点。图2.4c显示了一个等效的例子,其中这七个对象可以从两个最佳汇合点到达。
图2.4 寻找最佳汇合点
现在,看一个关于救护车站部署的更具体的例子:紧急医疗服务,也称为救护服务,提供了一系列专门针对院外急性医疗护理、转运至确定性治疗,以及为防伤病者自行转运进行的医疗转运 [138] 。给定一定数量的救护车,紧急服务提供者面临的一个主要挑战是如何选择合适的救护车站位置,以便最大限度地服务更多患者。
为了最小化在给定时间间隔内到达紧急请求发生处的平均时间,Li等人 [85] 根据历史紧急请求和实际交通状况提出了接近最优的救护车站位置。对在天津收集的真实数据进行的评估显示,如果救护车站移动到所提议算法建议的位置,到达紧急请求处的时间可以减少30%。先前的研究在放置车站时仅测量了欧几里得空间或静态道路网络中的空间邻近性。其他类似的应用也是可能的。例如,通过分析深圳大规模电动出租车在长时间内的轨迹数据,Li等人 [84] 提出了一种框架,该框架可能使在深圳找到充电站的平均时间比当前设置减少约26%。
这类模型的目的是从众多候选地点中选择一组位置,以便覆盖尽可能多的对象。例如,如图2.5a所示,基于车辆的GPS轨迹,我们希望在两个道路交叉口分别部署一个充电站,以便两个交叉口能够覆盖尽可能多的电动汽车。结果证明, n 1 和 n 3 是最好的组合,总共覆盖了五辆车。同样,如图2.5b所示,根据用户的签到数据,我们希望在两个区域放置广告牌,这两个区域共同拥有非重叠用户的最大数量。如图2.5c所示,我们希望根据候鸟的飞行痕迹建立两个监测站,以便观察尽可能多的候鸟。
图2.5 最大覆盖问题
实现这些应用相当于利用轨迹数据解决一个最大覆盖问题 [82] ,这是NP困难的。通过将先进的时空索引结构集成到云计算平台中,Li等人 [82] 有效地找到了一个覆盖轨迹几乎最多的 k 位置集合。基于Li的方法和平台,Liu等人 [90] 搜索了一个放置广告牌的 k 位置集合。他们创建了一个交互式视觉数据分析系统,允许城市规划师迭代地细化搜索算法建议的位置。这个系统始终让人类参与数据挖掘循环,结合了人类知识与机器智能,并将领域知识与数据科学相结合。
这类模型最初是在信息检索社区提出的,旨在通过历史数据学习如何根据候选地点的特点对它们进行排序。在城市规划中,我们可以对一组位置进行排序,以便选择前 k 个最佳候选位置来部署资源或设施。例如,为了开设一个盈利的购物中心,我们会根据多个因素,如周围的POI、交通设施、交通状况和邻里知名度对一组候选位置进行排序。不同因素的排序函数可以通过研究现有购物中心及其历史收入来学习 [47-48] 。
这类模型的目的是减少城市感知系统的不确定性。以下是一个以固定传感器为中心的城市感知的例子。许多城市部署了空气质量监测站,通知人们每小时的环境空气质量。由于这些站的部署和维护成本非常昂贵,一个城市能够放置的站数量非常有限。然而,空气质量在城市中高度倾斜,非线性地随位置和时间变化。为了解决这个问题,一些机器学习模型 [65,182] 被提出用于推断无站点位置的细粒度空气质量。在处理部署新站点的预算时,确定放置位置以最优化监测效果仍然是一个挑战。参考文献 [65] 中提出的一个关键思想是最小化空气质量推断的不确定性。也就是说,如果一个位置的空气质量可以通过机器学习模型自信地推断出来,就不再需要在那里部署一个站点了,而应该在那些空气质量无法确定推断的地点放置新站点(例如,如果推断的空气质量跨五个不同类别的概率分别是<0.20,0.21,0.19,0.22,0.18>)。
另一个例子涉及主动人群感知,它试图通过用户的手机收集城市噪声。在这种城市感知场景中,Ji等人 [70] 根据参与者的日程、出发地和目的地选择合适的参与者,并为他们规划数据收集路线。选择参与者和设计路线的一般原则是在时空空间中最小化收集数据的不确定性。更具体地说,他们更喜欢选择那些能在数据稀缺的地点收集数据的用户,而不是前往数据充足地点的用户。收集数据的不确定性是通过分层信息熵 [70] 来衡量的,该熵计算了一个地点以不同地理空间粒度被用户感知的概率。