购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.5 城市数据

1.5.1 城市数据的分类

1.5.1.1 基于数据结构和时空属性

如图1.14所示,这些数据集的形式可以根据它们的结构和时空属性分为六类。在数据结构方面,有基于点的和基于网络的数据集,分别显示在上方和下方。对于时空属性,有时空静态数据、空间静态时间动态数据,以及时空动态数据,分别由三列表示。

图1.14 城市大数据的六种数据形式

例如,图1.14所示的第一列中以基于点的数据结构表示的POI数据具有静态的地理位置和固定的属性,如名称、地址和类别,这些属性不随时间改变。

城市中的道路以网络结构表示,也具有静态的时空属性,如位置、名称、车道数和速度限制。如图1.14中间列的下方所示,当与随时间变化的交通相关联时,道路交通数据变为基于网络的空间静态时间动态数据。

如图1.14中间列的上方所示,大多数地理感知数据(如气象数据和空气质量)具有静态的点位置,固定传感器就部署在这些位置,但会持续产生动态的读数。

如图1.14最后一列的下方所示,数据的最复杂形式是轨迹数据,它通常表示移动对象(如车辆或人)的运动。轨迹数据既包含空间信息(如移动对象的地理位置),也包含随时间变化的时空属性(如速度和行驶方向)。

时空人群感知数据可以被视为一种基于点的时空动态数据集。最后一列上方和下方之间的区别在于,前者的连续点之间的顺序属性比后者要弱得多。例如,人们可能在某个地点发布一个带有地理标签的推文,几天后又在另一个地点发布其他推文。两个地点之间的联系变得非常弱,因为人们在这两个地点之间可能已经访问了许多其他地方。

1.5.1.2 基于数据来源

城市数据还可以根据其来源进行分类,例如分为地理数据、交通数据、通勤数据、环境监测数据、社交网络数据、经济数据、能源消耗数据和健康保健数据。每个来源可能进一步由几个子类别组成。例如,通勤数据包括人们在公交车、地铁和共享单车系统中的购票数据。

此外,当从不同的角度和以不同的方式使用同一来源的数据时,可以形成不同的数据结构。例如,从共享单车站点的角度来看,单个站点内人们的单车租赁数据是一个基于点的空间静态时间动态数据集。然而,通过汇总来自多个站点的大量单车租赁数据,我们可以构建一个单车站点之间的网络,因为人们从一个站点借出单车并在另一个站点归还。此外,不同站点之间的自行车流量随时间变化。因此,来自许多站点的大量共享单车数据可以被视为一个基于网络的时空动态数据集。如果配备GPS传感器,单车的移动将形成一条轨迹,这属于时空动态网络数据。

鉴于这两个因素,同一来源的数据可能属于基于数据结构和时空属性的分类法中的多个类别,如表1.3所示。

表1.3 映射到分类法中不同类别的数据源

以下小节将根据来源介绍每种类型的城市数据,并讨论在城市计算中的潜在应用以及可能面临的挑战。

1.5.2 地理数据

1.5.2.1 道路网络数据

道路网络数据可能是城市计算中最常使用的地理数据类型(例如,交通监控和预测、城市规划、路由和能源消耗分析)。它通常由一个图表示,该图由一组边(表示道路段)和一系列节点(表示道路交叉口)组成。每个节点都有唯一的标识和地理空间坐标,每条边由两个节点(有时称为 端点 )和一系列中间地理点组成(如果道路段不是直线)。其他属性,如长度、速度限制、道路级别(高速公路、大街或街道)、单向或双向以及车道数,都与边相关联。

1.5.2.2 POI数据

一个POI(如餐厅或购物中心)通常由名称、地址、类别和一组地理空间坐标来描述。一旦建立了POI,其属性很少随时间变化,尽管餐厅可能会偶尔更改名称或搬迁至新位置。由于城市中存在大量的POI,收集POI数据并不是一个容易的任务。通常,生成POI数据有两种方法。

一种方法是通过现有的黄页数据获取POI,并使用地理编码算法根据文本地址推导出POI的地理空间坐标。另一种方法是在现实世界中手动收集POI信息,例如,携带GPS日志记录器记录POI的地理空间坐标。主要数据提供商已经将大量精力投入了第二种方法。一些最近的以位置为基础的社交网络服务,如Foursquare,允许终端用户在系统中没有包含某个POI时,创建这个新的POI。

为了覆盖大量的POI,人们广泛使用的在线地图服务,如Bing和谷歌地图,通常采用这两种方法来收集POI数据。因此,出现了一些问题,比如如何验证POI的信息是否正确。有时,POI的地理空间坐标可能不准确,导致人们前往错误的地方。又如,如何合并不同来源或方法生成的POI。

1.5.2.3 土地利用数据

土地利用数据描述了一个区域的功能,如居住区、郊区和自然区域,这些最初由城市规划师规划,并在实际操作中通过卫星图像进行大致测量 [23] 。例如,美国地质调查局将美国的每个30m×30m的区域划分为21种地面覆盖类型,如草地、水域和商业区。在许多发展中国家,由于城市随时间变化,会建造许多新基础设施,拆除旧建筑,因此城市的现实情况可能与原始规划有所不同。大多数卫星图像无法区分细粒度的土地利用类别,如教育、商业和居住区,因此要获取一个大城市的当前土地利用数据,需要基于其他数据集进行一定程度的推断,如基于人类流动性和POI [51,54]

1.5.3 道路网络上的交通数据

1.5.3.1 环形检测器数据

有多种方式可以收集交通数据,例如使用环形检测器、监控摄像头和浮动车辆。环形检测器通常成对嵌入在主要道路(如高速公路)中,检测车辆穿越它们所需的时间间隔。通过将一对环形检测器之间的距离除以时间间隔,我们可以估计车辆在道路上的行驶速度。同时,通过计算在一段时间内穿越这些环形检测器的车辆数量,我们可以获得道路上的交通流量。由于部署和维护环形检测器需要大量金钱和人力资源,这种交通监控技术通常用于主要道路而不是低等级街道。因此,在城市中,环形检测器的覆盖范围相当有限。此外,环形检测器数据无法反映车辆如何在道路上以及两条道路之间行驶。因此,车辆在交叉口(例如为了等待交通灯和转向)花费的时间无法从这种传感器数据中得出。

1.5.3.2 监控摄像头

监控摄像头在城市区域广泛部署,产生了大量的图像和视频数据。这些数据为人们提供了交通状况的视觉真实情况。然而,将这些图像和视频自动转换为具体的交通流量和行驶速度仍然是一个具有挑战性的任务。将在一个地点训练的机器学习模型应用到其他地方是困难的,因为它受到地点的道路结构和摄像头设置[例如高度(相对于地面)、角度和对焦]的影响。因此,使用这种方法来监控全市的交通状况仍然依赖于人力。

1.5.3.3 浮动车辆数据

浮动车辆数据 [40] 是由装有GPS传感器的车辆在城市中行驶时产生的。这些车辆的轨迹被发送到一个中央系统,并与道路网络进行匹配,以推导出在道路段上的速度。由于许多城市已经出于不同目的在出租车、公交车和货运卡车上安装了GPS传感器,因此浮动车辆数据已经变得广泛可用。

与环形检测器和基于监控摄像头的方法相比,基于浮动车辆数据的交通监控方法具有更高的灵活性和更低的部署成本。然而,浮动车辆数据的覆盖范围取决于探测车辆的分布,这个分布可能随时间变化,并在城市中的不同时间段存在偏差。这需要先进的知识发现技术,以便根据有限和有偏差的数据恢复全市的交通状况 [41]

除了使用浮动汽车数据来确定交通状况外,我们还可以将出租车的GPS轨迹转化为社会和社区动态 [6] 。例如,了解出租车乘客的上下车点,这可以被视为一种人类流动数据,据此可以研究城市规模的通勤模式,从而有助于改善城市规划 [74] 。此外,人类流动性数据表明了一个地区的功能 [51,54] ,这与商业 [10-11] 和环境保护 [71] 有关。

1.5.4 移动电话数据

有三种类型的移动电话数据可以贡献于城市计算:通话详细记录、移动电话位置数据以及移动应用日志。

1.5.4.1 通话详细记录

通话详细记录(CDR)是由电话交换系统产生的一种数据记录,包含特定于单个电话通话实例的属性,如通话双方的电话号码、起始和终止站点、开始时间以及通话时长 [17,38] 。CDR有多种用途。对于电话服务提供商来说,它们是生成电话账单的关键基础。对于执法部门,CDR提供了丰富的信息,有助于识别嫌疑人,因为通过起始和终止站点可以推导出个人在通话期间的位置。CDR还揭示了个人与合作伙伴的关系、沟通和行为模式的细节。因此,它们可以在用户之间构建网络,并估计不同用户之间的相似性和相关性。

1.5.4.2 移动电话位置数据

移动电话位置数据是一类移动电话信号,它识别移动电话的位置而不是用户之间的通信。有两种方法可以获得移动电话的位置:一种是使用三角形定位算法,根据从三个或更多基站接收到的信号大致估计移动电话的位置,另一种是从用户智能手机上运行的移动应用数据流中提取GPS坐标。第一种方法广泛可用,只要将移动电话连接到无线通信网络,就可以估计位置,但定位精度取决于基站密度。第二种方法可用性较低,也就是说,如果用户没有运行任何获取GPS读数的移动应用,那么位置信息是不可用的,但它具有非常高的定位精度(由GPS传感器而不是基于站点的三角形定位算法生成)。

移动电话位置数据可以提供比CDR丰富得多的位置信息,因为后者只能根据电话通话的起始和终止站点来推导移动电话的位置。如果人们不在电话通话中,他们的位置就无法被推导出来。此外,一个基站通常覆盖具有一定规模的区域,这可能不足以精确地定位用户。移动电话位置数据表示城市范围内的人类流动性,可以用于检测城市异常,或者从长远来看,用于研究城市的功能区域和城市规划。有时会整合这两种移动电话数据,也就是说会保留手机之间的交易记录以及关于每部手机的位置的记录。

1.5.4.3 移动应用日志

许多移动应用在用户与智能手机交互时会记录用户行为。这些用户日志暗示了用户的偏好和个性特征,有助于改进应用的设计并实现个性化广告。当大规模用户日志被汇总使用时,可以获得给定区域内人们的生活模式和生活方式。日志甚至可能有助于预测一个地区的商业趋势。例如,如果很多人通过移动应用搜索某个特定房地产,该房地产的价格可能会上涨。原则上,应用程序的日志数据只能由应用运营商访问。然而,如果数据没有加密,那么无线网络运营商和手机制造商也可能访问这些数据。在利用这些移动应用日志的同时保护用户隐私是一个挑战。

1.5.5 通勤数据

在城市中穿梭的人们产生了大量的通勤数据,例如地铁和公交系统中的刷卡数据、自行车共享数据、出租车费用记录以及停车场的票务数据。

1.5.5.1 刷卡数据

这类数据在城市公共交通系统中广泛可用,当人们进入地铁站或乘坐公交车时会刷射频识别(RFID)卡。一些系统还要求人们在离开站点或下公交车时再次刷卡。每笔交易记录包括车站的ID、进出站的时间戳以及行程的费用。虽然刷卡数据最初是为了生成交通账单而创建的,但大规模的刷卡数据可以改善现有的公共交通系统。例如,优化现有公交车和地铁的调度,或规划新的公交车和地铁线路。

1.5.5.2 自行车共享数据

自行车共享系统在许多大城市中广泛部署,包括纽约、巴黎和北京,为人们的通勤提供了一种便捷的交通方式。用户可以在附近的站点租用一辆自行车,并在接近目的地的站点归还自行车。用户在取出/归还自行车时需要刷RFID卡。每次刷卡都会生成一条记录,包括自行车ID、时间戳和车站ID。自行车共享系统面临在各个站点之间重新平衡自行车的挑战。本质上,自行车的使用是不均匀的,随时间和地点而变化。因此,一些站点可能会拥堵,没有足够的泊位供归还的自行车使用,一些站点可能自行车数量不足 [26] 。这些数据不仅可以用来监控每个站点当前的自行车数量,还可以预测未来的自行车需求,以便运营商可以提前重新分配自行车。这些数据还可以帮助规划更好的车站部署。

最近,一些无站点的自行车共享系统允许用户方便地在任意地点停放和取用自行车。这些系统记录用户的骑行轨迹,有助于有效地规划城市中的自行车道 [2]

1.5.5.3 出租车费用记录

出租车费用记录包含两种类型的信息:出租车费用数据和行程数据。行程数据包括接送地点和时间、每次行程的时长和距离、出租车ID以及乘客数量。费用数据记录了每次行程的出租车费用、小费和税费。

1.5.5.4 停车场的票务数据

街道边的停车费用通常通过停车计时器来支付。停车位的支付信息可能包括停车费用和票据发放的时间。这些数据表明了一个地点周围的车辆流量,这不仅可以用来改善城市的停车基础设施,还可以用来分析人们的来往模式。后者可以支持地理广告和商业地点的选择。

1.5.6 环境监测数据

1.5.6.1 气象数据

气象数据包括湿度、温度、气压、风速、风向、降水量以及晴朗、多云、阴天和雨天等天气状况。气象数据由地面气象监测站生成并在公共网站上发布。气象数据的时序粒度从分钟到小时不等,因城市和国家而异,空间粒度从监测站到城市不等。气象预报始终是一项重要的任务,对许多领域都至关重要,包括航空、海洋和农业产业。当前的天气预报是基于一系列经典模型的结果和人工干预得出的。

1.5.6.2 空气质量数据

空气质量数据,如PM2.5(直径小于2.5μm的颗粒物)、NO 2 和SO 2 的浓度,可以从空气质量监测站获得。虽然一些气体如CO 2 和CO可以通过便携式传感器检测,但对于PM2.5和PM10,设备需要吸收足够的空气才能得出相对准确的读数。因此,这样的监测站通常非常大且昂贵,需要一定面积的土地进行部署和一个团队进行维护。

监测站的数据读数是不同空气污染物的浓度,例如,0.0014μg/m 3 。在与人们交流时,空气污染物的浓度被转换成个体空气质量指数(AQI),范围从0到500。不同国家有自己的转换标准(详细见参考文献 [81] )。在一段时间间隔内,所有空气污染物的最大个体AQI被选定来代表该间隔的AQI。AQI范围被划分为六级空气污染水平,用不同的颜色表示。表1.4展示了美国的AQI标准。例如,AQI在0到50之间表示空气质量良好,用绿色表示。

表1.4 AQI值、描述符和颜色代码

受到多个复杂因素(如交通流量和土地利用)的影响,城市空气质量在不同地点显著不同,并且随时间频繁变化。因此,数量有限的监测站无法反映整个城市的细粒度空气质量情况 [71] 。此外,对高级空气质量预报的需求最近有所增加。

1.5.6.3 噪声数据

噪声数据是另一种对人们的身心健康有直接影响的环境数据 [15] 。许多城市部署了传感器来测量声音水平,全球大部分户外噪声都是由机器、交通系统、机动车、飞机和火车产生的 [16] 。然而,噪声污染的程度取决于噪声的强度和人们对噪声的耐受度 [15] ,后者随时间变化,且人与人之间的差异可能很大。此外,噪声是由不同类型的声音混合而成的。声音传感器无法体现一个地点噪声的组成,更不用说声音随时间和位置显著变化的事实了。

近年来,有一些研究努力通过将人类作为传感器来收集噪声数据。例如,在像纽约市这样的城市中,有一个311平台,允许人们通过电话登记非紧急投诉。每条投诉都与一个时间戳、一个位置和一个类别相关联。在数据中,噪声是第三大类别,可以用来诊断城市的噪声污染 [73] 。其他研究项目则利用用户的手机来收集一个地点的噪声水平,并要求那些用户标记他们听到的噪声类型。

1.5.6.4 城市水质

城市水质指的是水体的物理、化学和生物特性,被称为“强大的环境决定因素”和“预防及控制水传播疾病的基石” [49] 。一些指数,如余氯、浊度和pH值,通常用于测量城市水在配水系统中的化学性质 [39] 。其他类型的传感器也用于检测水的物理性质,如压力、温度和流量。检测城市水物理和化学性质的传感器可能不会安装在同一位置。这些传感器生成的数据每几分钟更新一次。由于在配水系统中安装的此类传感器非常少,通常一个系统包含数以万计的节点和管道,因此有效地监测水质仍然非常困难 [30]

1.5.6.5 卫星遥感

卫星遥感使用不同长度的射线扫描地球表面,生成代表广大区域生态和气象的图像。这些图像可以用于校准城市规划、控制环境污染以及应对灾难性灾害。

1.5.7 社交网络数据

社交网络数据由三部分组成。第一部分是用户个人资料,由用户的个人属性组成,如性别、家庭住址和年龄。这些信息通常是稀缺和不完整的,因为关心隐私的人不会填写所有信息。这些信息可以帮助进行不同类型的推荐(如广告)。

第二部分是社交结构,以图的形式呈现,表示用户之间的关系、相互依赖或互动。社交结构可以帮助我们检测人群中的社区,理解信息在人群中的传播,甚至预测用户个人资料中的缺失值。

第三部分是用户生成的社交媒体内容,如文本、照片和视频,这些内容含有丰富的关于用户行为/兴趣的信息。当向社交媒体添加位置信息(例如Foursquare的签到数据和带地理标记的推文)时 [63] ,我们可以模拟人们在城市区域内的流动性,这对于城市规划和异常检测是有帮助的 [36]

1.5.8 能源

1.5.8.1 车辆能源消耗

车辆在道路表面和加油站的油耗反映了城市的能源消耗情况。相应的数据可以直接从传感器获取,例如保险公司使用传感器来收集车辆的各种数据。数据也可以从其他来源隐式推断出来,例如从车辆的GPS轨迹 [59-60] 。这些数据可以用来评估城市的能源基础设施(比如加油站的分布),计算道路上车辆产生的污染排放,或者寻找最有效的路线。

电动汽车经常需要充电。充电数据,包括电动汽车在哪里、何时充电以及相应的电力消耗,可以指导对充电站部署的决策。这些数据也有助于改进电动汽车的电池设计。

1.5.8.2 智能电网技术

智能电网技术 [9] 源自早期尝试在电力基础设施中使用电子控制、计量和监控。近年来,许多智能电表和传感器被安装在电网中,产生了关于电力消耗、传输和分配的数据 [13] 。公寓或建筑的电力消耗数据可以用来优化居民能源使用,将高峰负荷转移到需求较低的时段。电网的传感器数据可以帮助优化能源传输和分配。

1.5.8.3 家庭能源消耗

智能电表可远程监控家庭中的电力、水和燃气消耗,这些数据可以帮助我们了解家庭的生活模式,并估计家庭的经济能力,这在精准营销中非常有用。当汇总使用这些数据时,可以推断出社区的经济繁荣程度,进而预测房地产的未来价值。

1.5.8.4 发电站

各种数据集持续由热电站的组件(例如燃煤锅炉、鼓风机和尾气净化机)生成。这些数据可以用来提高能源效率,即用更少的煤炭产生更多的电力。

1.5.9 经济

有多种数据可以代表城市的经济动态,例如信用卡交易记录、股票价格、房价和个人收入。这类数据的每个记录都与一个地点、一个时间戳和一个值相关联。当这些数据集被汇总使用时,它们可以捕捉到城市的经济节奏,从而预测未来的经济状况。

1.5.10 医疗保健

已经有大量由医院和诊所生成的健康和疾病数据,包括关于医疗治疗和医疗检查报告的数据集。后者可能包含各种数字、图像(例如胸部X光片)、时间序列和图(例如心电图)。

此外,可穿戴计算技术的进步使人们能够通过智能手环等可穿戴设备监测自己的健康状况,如心率、脉搏和睡眠时间。这些数据甚至可以发送到云端,用于诊断疾病和进行远程医疗检查。在城市计算中,我们可以汇总使用这些数据集来研究环境变化对健康的影响,例如分析空气污染与城市哮喘状况的关系,或者研究城市噪声如何影响纽约市等地的居民心理健康。 1xyjUtcADJlPKiI9TkUTr10BB16YE5NpzPP3F5lbZydldf7xji2Kqp9CIxDfr6E2

点击中间区域
呼出菜单
上一章
目录
下一章
×