包括纽约和芝加哥在内的许多城市已经向公众开放了它们的数据集。以下是一些公开数据集的链接:
· 纽约市公开数据:https://data.cityofnewyork.us/。
· 芝加哥公开数据:https://data.cityofchicago.org/。
· 微软研究院的城市计算:https://www.microsoft.com/en-us/research/project/urban-computing/ [66] 。
· 城市噪声:纽约市与社交媒体、POI和道路网络有关的311投诉数据:https://www.microsoft.com/en-us/research/publication/diagnosing-new-york-citys-noises-with-ubiquitous-data/ [73] 。
· 城市空气:根据五个中国城市的气象数据和天气预报分析它们的空气质量数据 [19,71,77] :https://www.microsoft.com/en-us/research/publication/forecasting-fine-grained-air-quality-based-on-big-data/。
· 交通速度、POI和道路网络:从北京三个数据集中提取的特征被整合到三个矩阵中:https://www.microsoft.com/en-us/research/publication/travel-time-estimation-of-a-path-using-sparse-trajectories/ [41] 。通过向数据中添加一个用户维度,建立一个张量来描述特定用户在特定时间槽内在特定道路上的通行时间。该数据在参考文献 [46] 中使用,并可以从以下URL下载:https://www.microsoft.com/en-us/research/publication/travel-time-estimation-of-a-path-using-sparse-trajectories/。
· GeoLife轨迹数据集 [82] :来自微软研究院GeoLife项目的GPS轨迹数据集 [76] ,由182名用户从2007年4月到2012年8月进行收集。该数据集已被用于估计用户之间的相似性 [25] ,从而实现朋友和位置推荐 [75,79] 。它还被参考文献 [8] 用于研究找到离一系列查询点最近轨迹的问题。
· T-Drive出租车轨迹 [83] :来自微软研究院T-Drive项目的轨迹样本 [52,53,55] ,由2008年一周内超过10000辆的北京出租车生成。完整的数据集用于为普通驾驶员提供最快的实际驾驶路线建议 [53] ,为出租车驾驶员推荐乘客上车地点 [55,57] ,实现动态出租车拼车 [32,33] ,找出城市交通网络中有问题的设计 [74] ,以及识别城市功能区域 [51,54] 。
· 带有交通标签的GPS轨迹 [84] :每个轨迹都有一组交通方式标签,如驾驶、乘坐公交车、骑自行车和步行。该数据集可以用于评估轨迹分类和活动识别 [67,70,72] 。
· 基于位置的社交网络的签到数据 [85] :这个数据集由超过49000名用户在纽约和3100名用户在洛杉矶产生的签到数据组成,还包括用户的社会结构。每个签到数据包括场所ID、场所类别、时间戳和用户ID。由于用户的签到数据可以被视为采样率低的轨迹,这个数据集已被用于研究轨迹的不确定性 [47] 和评估位置推荐 [3] 。
· 飓风轨迹 [86] :由美国国家飓风中心(NHC)提供的这个数据集包含从1851年到2012年的1740个北大西洋飓风轨迹(正式定义为热带气旋)。NHC还提供了每年飓风季节(从6月到11月)中每个月典型飓风路径的注释。这个数据集可以用来测试轨迹聚类和不确定性。
· 希腊卡车轨迹 [87] :这个数据集包含来自50辆不同卡车在希腊雅典周围运送混凝土的1100个轨迹。参考文献 [12] 中用它评估轨迹模式挖掘。
· Movebank动物追踪数据 [88] :Movebank是一个免费的在线数据库,帮助动物追踪研究人员管理、分享、保护、分析和归档数据。