城市计算最新章节_郑宇著

3.3 以人为中心的城市感知

以人为中心的城市感知包括两种范式：被动人群感知和主动人群感知。尽管被动人群感知范式可能比主动人群感知贡献更多的数据，但在现实中，考虑到现有基础设施的规模，我们对这种感知范式下人和传感器的控制非常有限。被动人群感知范式的主要挑战可以通过城市计算框架的上层来解决。因此，在本节中，我们专注于讨论主动人群感知范式。

在主动人群感知范式中，我们面临的首要问题是人类移动的不均匀性，因为像中央商务区这样的地方本质上比其他地区更为拥挤。如图3.13所示，这导致了不平衡的数据覆盖，对实时监控程序和进一步的数据分析构成了挑战。一方面，我们可能会从人口密集地区接收到重复的数据。由于主动人群感知通常通过激励措施鼓励人们贡献数据，重复的数据可能意味着资源的浪费，如金钱。另一方面，我们不知道在图中带有问号的地方发生了什么。为了解决这个问题，我们需要评估已经收集到的数据的质量，例如数据有多么不平衡？此外，我们需要巧妙地招募参与者，并创造性地为他们设计合适的任务，以便收集高质量的数据集。

图3.13 由人类移动不均匀引起的数据覆盖不平衡

3.3.1 数据评估

鉴于有限的预算、人类移动的不均匀性以及较大的感知地理空间，我们无法保证可以在任何位置和时间段收集数据。在这种情况下，拥有一个用于评估已收集数据质量的度量标准是非常重要的。这个评估指标不仅可以衡量感知程序的的成功，还可以包含到参与者招募和任务设计的目标函数中。目前，有两种数据评估方法，分别基于覆盖率和基于推理。

3.3.1.1 基于覆盖率的数据评估

数据覆盖率 ^{[1，22，54]} 即跨整个感知区域和整个感知时间范围的数据收集比例，通常用于衡量所收集数据的价值（即效用）。一般来说，在城市感知程序开始之前，会预定义一个覆盖率。感知程序招募参与者的数量，只要确保收集的数据能够满足预定义的比率即可。这样的比率忽略了数据在空间和时间维度的分布，未能揭示数据的平衡性。例如，在图3.14a和图3.14b中，在四个位置收集了数据。尽管图3.14b看起来比图3.14a的覆盖率更好，但它们的覆盖率都是0.25，因此无法区分。然而，如果我们以较粗的粒度查看这两个数据集，如图3.14d和图3.14e所示，则图3.14e的覆盖比图3.14d更加平衡。

图3.14 主动人群感知数据覆盖

为了解决这个问题，Ji等人 ^[29] 提出了一种基于分层熵的数据覆盖评估方法，该方法衡量了时空空间中数据的平衡性和数量。由于时空空间具有不同粒度的分区，这些分区具有不同的地理大小和不同长度的时间间隔，如图3.14c和图3.14f所示，该方法在分层结构中聚合了不同空间和时间粒度的数据分布熵，如图3.14g所示。更具体地说，如公式（3.9）所示，数据质量由两部分的加权求和表示：数据平衡性 E （ A ）和数量 Q （ A ）。

Q （ A ）是在所有空间分区和时间间隔内收集的数据总量。 A _k （ i ， j ， t ）表示在第 k 层上的一个条目的数量。例如，在图3.14a和图3.14b中，分别收集了四条数据。

E （ A _k ）是图3.14g所示层次结构的第 k 层的熵。 ω _k 是权重，用于标准化不同层次上 E （ A _k ）的规模，因为不同层次上的熵同等重要。例如，如果没有标准化， E （ A ₁ ）即底层的熵，可能会远远大于 E （ A ₂ ）。因此，后者将受到前者的主导，失去对 E （ A ）的贡献。

3.3.1.2 基于推理的数据评估

由于不同位置-时间条目之间存在空间和时间相关性，这种方法根据部分收集的数据推断未感知位置的值。收集到的数据的值可以定义为推断缺失数据的能力 ^[47，52] 。如果可以使用收集到的数据很好地推断缺失数据，那么收集到的数据被认为是有价值的。

3.3.2 参与者招募与任务设计

在城市感知程序中，参与者招募和任务设计通常与人类移动性有关，因为人们需要在收集数据之前到达感知地点。根据是否改变参与者的原始行程路线，参与者招募和任务设计有两种方法。

第一种方法选择参与者收集数据，而不改变他们自己的行程路线。例如，Jaimes等人 ^[28] 假设参与者可以在他们当前位置的圆圈内收集数据。Zhang等人 ^[54] 通过预测参与者的未来行程来招募参与者，使用一些数学模型，如截断的Levy行走模型 ^[22] 和马尔可夫链模型 ^[1] ，以及他们的历史轨迹。

第二种方法则要求参与者改变他们原来的行程路线，以收集更高价值/效用的数据，因为城市中的人类移动性在本质上是高度偏斜的 ^[13] 。如果不改变参与者的原始行程路线，人口稀少的地区根本无法感知。为了解决这个问题，Kawajiri等人 ^[30] 设计了一种奖励机制，为不同地区的数据设置区分性奖励，引导参与者到人口稀少的地区收集数据。在这个框架中，模拟参与者对区分性奖励的反应至关重要。然而，由于许多复杂因素，包括参与者的心理、奖励的分布、要收集的数据类型、天气条件以及交通状况，建立一个这样的模型是非常困难的。

最近，Ji等人 ^[29] 提出了一种新的任务设计机制，该机制根据参与者的通勤计划（包括起点、终点、出发时间和到达时间）选择参与者，旨在收集在总量和数据平衡方面覆盖良好的数据。通过一些激励措施（例如，金钱），许多参与者愿意提交他们的通勤计划，并在新的路线上通行，途经有价值数据的区域，只要能在预定义的到达时间之前到达目的地。图3.15展示了在参考文献 ^[29] 中提出的城市感知方法的框架，该框架由三个主要部分组成：任务设计、参与者招募，以及加入和感知。

图3.15 考虑人类移动性的城市感知框架

在第一个组成部分中，如图3.15底部所示，人们可以通过提交一个地理区域和时间跨度来创建一个城市感知程序，在此期间将收集数据以及要收集的数据类型、预算（例如，他们愿意支付的资金量）和参与者每小时可以获得的最小奖励。感兴趣的参与者（用灰色人形图标表示）可以通过他们的移动设备提交有关移动性的信息，包括起点、终点、出发时间和到达时间。如果被招募，参与者（用黑色人形图标表示）将收到一个任务，该任务包括一系列收集点和相应的时间间隔，参与者应在这些时间间隔内收集数据。之后，被选择的参与者按照分配的任务在现实世界中收集数据，并通过他们的移动设备将收集到的数据返回给系统。

在任务设计组件中，如图3.15顶部所示，根据每个参与者的移动性和预期收集的数据，通过四个步骤为每个参与者设计一个任务。首先，我们在地理区域内逐个检查每个位置，找到在出发时间和到达时间之间参与者可以到达的位置。每个选定的位置都关联一个可以收集数据的时间间隔（称为收集时间间隔）。其次，我们根据目标函数[如公式（3.9）]和预期在每个选定位置收集的数据来衡量位置的值（为了扩大数据覆盖范围，在图3.15中用不同颜色表示）。最后，如果参与者在收集了 L ₁ 的数据后可以在其收集时间间隔内到达 L ₂ ，我们将连接两个选定的位置 L ₁ 和 L ₂ 。这样，我们可以构建一个位置图，每个节点表示一个位置，并具有收集时间间隔和覆盖值。在位置图中，从参与者起点到终点的每条路径都是一个无障碍的任务候选。我们在位置图中搜索一个接近最优的路径，它具有接近最大的覆盖值。

参与者招募组件包括两个步骤——参与者选择和参与者替换，如图3.15中间部分所示。首先，我们从候选人池中随机逐一选择参与者。使用任务设计组件，我们为每个参与者分配一个任务，并更新预期收集的数据（表示为感知数据）。此刻，实际上还没有收集数据。总预算随后减去将给予参与者的奖励。我们重复参与者选择过程，直到预算用完。之后，我们开始参与者替换过程，该过程随机替换选定组中的一个参与者（表示为黑色人形图标）与候选人池中的另一个参与者。如果替换扩大了数据覆盖范围，我们就保留这个变化，否则放弃替换并继续寻找另一对参与者进行替换。我们重复替换过程，直到在连续尝试一定数量（如100次）后数据覆盖范围不再有任何改善。