购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 基于用户众包的高速公路交通信息感知技术

本部分研究主要包括以下两个方面。

(1)基于用户众包的路况信息感知技术 本部分将分别研究通过微博、微信等自媒体平台,通过高速公路各路段分管部门的官方平台,以及通过用户的各个途径主动上报等方法获取拥堵、事故、管制、天气等路况信息。

(2)基于北斗/GPS用户终端的区间交通参数感知技术 传统固定检测器能较好获取地点交通参数(如流量),但难以获取区间交通参数,如路段平均行程时间(速度)。本部分利用用户车辆携带的智能终端,将其作为浮动车进行路段平均行程时间(速度)的获取。本部分将同时考虑北斗用户终端和GPS用户终端,对两者获取的路段平均行程时间进行融合,获取更加准确的路段平均行程时间,进而用路段长度和平均行程时间的比值求出路段平均行程速度。

3.1.1 研究框架

基于用户众包的交通信息感知技术研究框架如图3.1所示。

图3.1 基于用户众包的交通信息感知技术研究框架

3.1.2 用户众包的概念及优势分析

(1)用户众包的概念 “众包”(crowd sourcing)这一概念是由美国《连线》杂志的记者杰夫·豪在2006年6月在维基百科上提出的。杰夫·豪为“众包”下了一个定义:“众包”指的是企事业单位、机构乃至个人把过去由员工执行的工作任务,以自由、自愿的形式外包给非特定的社会大众群体解决或承担的做法。古时候官府捉拿罪犯,在城门边贴布告、悬赏,发动尽量多的人参与。官府等于是把抓人的事包给了所有人,用赏金刺激人们举报罪犯。这就是最原始的众包,包给众人、每一个人。

作为交通的参与者,出行者有对实时路况信息的需求,同时也是路况信息的直接体验者,如果发生交通拥堵或交通事故,经过现场的出行者把拥堵和事故信息通过一定的方式共享出去,就可为其他出行者提供参考,参与的人越多,信息就越全面,就越准确,这就是用户众包(user generated content,UGC),信息的使用者也是信息的提供者。

基于用户众包的交通信息采集技术,包含主动众包和被动众包两种方式。

①主动众包采集 用户在智能终端设备(如智能手机、Pad等)上安装特定的应用,并通过该应用提供的信息上报功能,主动将交通现场的交通信息以文字、语音、图片、视频等形式上传至应用运营后台。这种用户主动上报的方式,称为主动众包采集,一般用来采集路况信息。

②被动众包采集 用户在智能终端设备(如智能手机、Pad等)上安装特定的应用,并授予应用获取位置信息(如GPS定位数据)的权限,在用户车辆运动过程中定时将自己的位置、速度、方向等信息发送到数据处理中心,这样每个终端就是一个浮动车,当用户量的达到一定程度时,就能计算出一个区域或道路的路况。这种获取用户实时位置信息的信息采集方式称为被动众包采集,可用来采集交通参数,如路段行程时间。

(2)基于用户众包的交通信息采集技术优势分析 随着移动互联网和自媒体的发展及兴起,使得将众包这种高效的模式运用到交通信息的采集上来成为可能。作为交通的参与者、出行者有对实时路况信交通息的需求,同时也是交通信息的直接体验者,如果发生交通事件(交通事故和道路拥堵等),经过现场的出行者把事故信息通过自媒体等方式共享出去,就可为其他出行者提供参考,参与的人越多,信息就越全面,就越准确。而且由于用户开放了手机的GPS等接口,在用户享受定位服务的同时也将自身的定位数据上传给了服务器,如果上传的数据足够多,服务器通过处理这些数据就能得出一系列的交通参数,从而判定当前的交通状态等交通信息,再将这些交通信息发布给用户。信息的使用者也是信息的提供者,以群众力量提供最实时的道路交通信息,参与性越强,信息越准确,这就是基于用户众包的交通信息采集技术。

采用用户众包采集交通信息的方式可以弥补其他采集方式不能覆盖大面积区域以及不能确定路况实际情况的问题,如交通事件的影响、交通管制的影响等,如果有用户在现场,将这些情况分享给其他用户,其他用户就可以对自己的行车路线进行决策。用户众包的最大优势在于覆盖区域大、成本低、反应及时等特点。

与传统的交通信息采集方式相比,基于用户众包的交通信息采集方式在覆盖范围、信息内容、实时性、准确性、成本等方面分别具有其优势性。

①覆盖范围 传统的固定检测器采集交通信息的方式由于受埋设地点的限制,覆盖范围只能限制在某个路段和交叉口,在没有固定检测器的地方根本无法获得相应的交通信息;传统的浮动车法,往往是以出租车为浮动车,而浮动车法需要达到一定的数量才能够保证所获取信息的准确性,受客流量的限制,出租车在市中心出现得较多,因而在市中心采集的交通信息精确可用,而在郊区等出租车较少的地区利用浮动车法很难得到准确的交通状态等信息;相比前两种交通信息的采集方式,采用用户众包获取交通信息的方式可以做到全路网大范围覆盖,因为智能手机的大量普及使得每辆车上至少有一个智能终端,因而就克服了浮动车法样本量不足的特点,只要路段上的车辆多于一定数量都可以得到准确的交通信息。

②信息内容 固定检测器和传统的浮动车法只能得到某个点和路段以及特定区域的交通信息参数信息,具体的交通事件信息无法直接获得;而由于通过用户主动上报交通信息,采用用户众包的方式不仅可以能获得具体的交通事件信息,也能获得速度、行程时间等交通参数信息以及交通状态信息,获得的信息比较全面。

③实时性 固定检测器和传统的浮动车法只能直接获得交通参数信息,在具体的交通状态和交通事件检测上受算法模型的限制,实时性较差;而采用用户众包的方式可以直接通过用户获取交通事件和交通状态信息,更加直接迅速,因而在实时性上具有优势。

④准确性 在准确性上,固定检测器和传统的浮动车法由于随机性较小,在判断具体的交通参数上具有很高的准确性;而采用用户众包的方式时,当用户数量较少或反馈数量较少时,不能获取比较全面和及时的路况信息,会出现虚假信息不易判断和上报数据过期等,但能通过数据筛选和一定的准确性及可信度分析计算能够得到较为精确的交通信息。

⑤成本 对于可行性而言,技术实施的成本是其中的重要因素之一,相比固定检测器和传统的浮动车法,采用用户众包的方式不需要花费购买固定检测器和车载导航的经费,采集交通信息的装置就是用户的智能手机,因而在交通信息的采集上采用用户众包可以降低相应的成本。

用户众包采集技术与传统的交通信息采集技术优缺点对比见表3.1。

表3.1 用户众包采集技术与传统的交通信息采集技术优缺点对比

3.1.3 用户众包平台构架

用户众包平台构架如图3.2所示。

图3.2 用户众包系统构架

“两客一危”是指从事旅游的包车、三类以上班线客车和运输危险化学品、烟花爆竹、民用爆炸物品的道路专用车辆

(1)众包用户分析 随着智能手机的普及和车辆导航系统的普适化,采集交通信息不再限定在对交通进行管理和服务的政府部门及公司,用户只要简单地拥有一个智能手机等智能终端就能为采集交通信息获得更好的交通信息服务贡献自己的一份力量。交通信息众包的用户可以是每一个对交通信息具有需求的部门、各种车辆和行人,所以在利用众包模式来采集交通信息时必须对用户进行细分,分析每一类用户所能上传的交通信息及其相应的特点。一般来说,以同样的方式上传的信息在信息的内容和格式上具有一致性,因而可以按照上传信息的方式将众包用户进行分类,包含以下四种。

①用户自媒体上报 在如今的信息社会,自媒体与众包联系紧密,两者相互促进,共同发展,自媒体的繁荣离不开其众包化的媒体采编和组织方式,而众包又可以利用自媒体的网络渠道得以实现和深入。如微博、微信等,是人们良好的社交工具,在发生交通事件以及交通拥堵时,公众可能在自媒体上发表有关的交通事件的信息。而且如今有很多交通管理部门专门设立了相应的微信和微博平台,在提供交通信息服务的同时,也积极鼓励用户主动在自媒体平台上上传交通信息和讨论交通问题。

a.对应用户 私家车、货车、行人、交警等。

b.对应终端 智能手机、Pad、计算机等。

c.上传信息 内容包括交通拥堵、交通事故和交通管制等路况信息;格式包括文字、图片、视频、音频。

②用户热线电话上报 一般情况下,交通管理部门特别是高速公路管理部门,为弥补在交通信息采集上的不足和及时采取救援和服务,会设有用户上报交通信息的热线电话,当道路上发生交通拥堵、事故、管制时,用户通过手机、固定电话采用短信和拨打电话的方式将相关信息反映到相关部门。通过和交通管理部门合作,交通广播电台就是把志愿者上报的路况信息作为其主要的信息来源,而且为了鼓励用户积极上报路况,建立了奖励机制,对积极上报路况的热心驾驶员进行奖励。

a.对应用户 私家车、货车、行人等。

b.对应终端 手机、固定电话等。

c.上传信息 内容包括交通拥堵、交通事故和交通管制等路况信息;格式包括文字、音频。

③官方网络平台 为了更方便、更人性化地为出行者提供交通信息服务,很多地方政府和交通管理部门设立了专门的交通信息发布网站,出行者可以在这些网站上查找一些其所需的交通信息,如综合路况、突发事件、道路养护施工情况以及其他一些与出行相关的信息,这些信息以电子地图、文字以及视频的方式展现出来。具体如“山东交通出行网”,其首页是一个实时更新的显示交通信息的电子地图,右侧有以文本信息显示的实时综合路况、突发事件、道路养护施工信息。可以将官方网站上的信息提取出来并与其他的信息进行整合。

a.对应用户 交通管理部门。

b.对应终端 计算机。

c.上传信息 内容包括交通拥堵、交通事故和交通管制等具体而精确路况信息;格式包括文字、图片、音频。

④用户众包APP上报 用户众包APP通过手机标注实时的交通路况,在开启手机GPS或北斗后记录下行车路径,生成实时的交通地图,提供分享,从而提供精确的实时路况。驾驶员或行人在遇到交通事件时,可以一键发送事件信息至中心系统上报路况,比以往的方法更加方便快捷。

a.对应用户 装有众包APP的“两客一危”、私家车、货车等。

b.对应终端 智能手机、Pad、车载导航等。

c.上传信息 内容包括交通拥堵、交通事故和交通管制等路况信息,GPS和北斗的定位数据;格式包括文本、图片、音频等。

众包用户分析见表3.2。

表3.2 众包用户分析

(2)众包信息感知 交通信息的感知是交通信息用户众包系统的基础,相比传统的交通信息采集方式,众包的感知终端更加具有灵活性和普适性,感知终端包括硬件和软件,硬件主要包括智能手机、Pad、车载导航、用户的电脑等。由于这些智能设备并不是专门用于交通信息的采集上,因而需要装上一些必要的软件和插件或者对一些可用的软件才能进行利用。一般智能终端上都预装有GPS定位装置,“两客一危”的车辆上还装有“北斗”定位芯片,通过车辆卫星定位获取的数据通过一定的处理就可以得到具体的交通参数信息;利用智能手机上安装的众包APP,可以实时将用户车辆的定位数据上传给数据中心,当驾驶员或行人在遇到拥堵排队时,可以一键发送拥堵信息至中心系统上报路况,比以往的方法更加方便快捷。官方网站和手机上的自媒体APP(如微信、微博)上专门的交通信息讨论平台也具有很多的可用的路况信息。

①众包信息的处理 对于用户众包的处理是本部分重点研究的技术内容,主要是利用自媒体和各种主动上报的方式获取路况信息,及利用GPS和北斗定位数据获取具体的交通参数,将在以后部分重点论述。

②众包信息服务 利用自媒体和各种主动上报的方式获取路况信息及利用GPS和北斗定位数据获取具体的交通参数处理完成后会上传给交通信息中心,交通信息中心会根据需要再对这些信息进一步地进行分割和处理,然后提供给众包用户,也就是之前提供相关信息的用户,包括交通管理部门、私家车、货车、“两客一危”和行人,通过提供更加全面、准确的交通信息提高众包用户参与的积极性和持续性。

3.1.4 基于用户众包的路况信息感知技术

利用出行者和交通管理者反馈的信息来采集实时路况信息是一种可行的交通信息获取模式,并将逐步成为一种非常重要的信息采集手段,这就是实时路况的用户众包。通过以上四种众包途径获取的信息包含不同种类的交通信息,如交通管制信息、交通拥堵和事故信息;交通信息通过不同的格式来表达,有文字、图片、音频、视频一种或几种混合的格式。这里以基于文本信息的路况信息提取技术为例进行分析。

各众包用户提供的信息具有各自不同的特点,所获得的信息有文字、语音、图片、视频等各种类型和格式的信息,非常繁杂,如果对这些不同类型的信息分别进行提取,技术上过于困难,成本过高,因而不太可行。经过分析发现,这三种众包形式中文本类的信息占有很大的比重,且其中的文本信息能反映大多数的路况信息。将其中相关的文本信息抽取出来,单独进行路况信息的提取,不仅技术上更加可行,成本更低,而且因为信息提取得更快,更加能保证实时性。

由于文本信息的来源比较复杂,有很强的模糊性和非结构化特征,且不同来源的文本信息所描述内容之间可能存在差异甚至矛盾,从中提取的交通信息必须解决中文分词、消息甄别、时效性检验、消息融合等问题,才能有效获取实时交通状态。针对上述问题,围绕文本信息的中文分词、消息蕴含交通信息的形式化和定量化描述、多消息的模糊聚类等关键环节展开,提出从众多不同来源的文本信息中提取路况信息的技术方法。

(1)文本信息的中文分词 自然语言分词是在众多文本信息中提取所需信息的关键环节。目前主流的自然语言分词方法有基于词库的分词方法(最大匹配方法、逐词遍历方法、双向扫描方法等)与基于统计模型的分词方法[基于加权有限状态转换机、隐马尔科夫模型(HMM)等分词方法]。以下首先对文本信息源进行过滤,只保留与路况信息相关的文本消息用于路况信息的提取过程。由于从以上三种形式获得的文本信息比较短小,最多不超过500个汉字,且从文本中提取的交通信息专业性较强,存在较少的理解歧义,因此,在分析大量实时路况信息的语料库所构建的地址词库、方向词库、事件词库以及附属定位词库的基础之上,采用汉语分词系统软件NLPIR。该软件主要的功能包括中文分词、词性标注、命名实体识别、用户词典、新词发现与关键词提取等,分词准确率非常高,在汉语分词软件中享有很高的声誉。

(2)路况信息提取方法

①模糊C信息聚类 所得的文本信息,尤其是从自媒体平台上获取的信息,大多来源于于公众,受制于各种条件,这些消息的描述存在很大的模糊性,并且不同用户所发的消息可能存在差异。因此,需要对这些信息进行模糊聚类,从各种不同的消息中提取出可信度最高的交通信息。

聚类的本质是使同类之间的差别最小,类别之间的差别最大。模糊C聚类(FCM)由Dunn于1973年提出,利用隶属度来确定元素属于某个类别程度,特别适合处理模糊集合聚类问题。以下采用FCM聚类算法实现文本信息的模糊聚类过程。假定消息集为 X ={ x 1 x 2 ,…, x n }, n 为文本信息数量,FCM算法将文本信息分为 p 类,每个类别的聚类中心为 v j u ij 为文本信息 i 属于第 j 类的模糊隶属度,显然 u ij 满足以下条件。

v j u ij 为:

VM算法的迭代过程是使模糊目标函数为最小化的过程,模糊目标函数计算公式为:

式中 m ——模糊权重指数。

模糊聚类迭代过程如下。

a.给定类别数量 p ,模糊权重指数 m ,初始化聚类中心 v ,迭代次数 t

b.根据式(3.2)计算模糊隶属度矩阵 n ,根据式(3.4)计算聚类中心 v

c.根据式(3.4)确定模糊目标函数 J ,计算约束条件。

J it +1) - J it) ‖≤ ε (3.5)

式中 ε ——预先给定的允许误差,若满足则算法终止,否则转向步骤b。

②RBF神经网络优化 传统的FCM算法对噪声数据比较敏感,易陷入局部最优。由于不同交通信息类别差别较小、噪声数据较多,大大限制了FCM算法在文本信息提取中的应用。鉴于此,提出基于径向基函数(RBF)神经网络的FCM聚类算法,利用RBF神经网络优化模糊聚类结果,提高聚类度,实现对众多文本信息中蕴含实时交通信息的融合。

RBF神经网络是一种由输入层、隐含层及输出层组成的前向反馈网络,其特点是训练简洁,学习收敛速度快,对非线性连续函数具有较好的逼近性能。RBF神经网络的输入层作用仅限于数据传递,隐含层通过径向基函数对输入数据进行映射变换,实现低维输入数据到高维空间的转化,一般选择高斯函数作为隐含层的径向基函数,即:

式中 x ——输入向量;

z i ——隐含层的第 i 个节点的高斯函数的中心;

σ ——高斯函数的方差。

从隐含层到输出层为线性调整,则神经网络的输出为:

式中 yi ——输出层的第 j 个输出节点;

w ij ——隐含层到输出层的连接权值;

k ——隐含层的节点数。

③路况信息提取 首先定义所有文本所得消息记录集为 M ,道路路段集合为 R ,交通信息对应时间点为 T ,道路路段的畅通度集合为 D clear ,实时路况信息更新表为 I info

定义描述道路路段集合 R 中第 l 条道路路段 R l 交通信息的文本信息记录集为 V l ={ V 1 V 2 ,…, V i ,…, V n },其中 n 为包含路段 R l 交通信息文本数。

i 条文本信息 V i 采用 l 维向量表示,即:

式中 P i ——发表该消息的用户标识;

S p i ——用户 P i 诚实度,且系统初始状态时 S p i =0;

T i ——消息发表时间;

L i ——消息描述的地点,可以是平面坐标或者自然语言描述;

Z i ——消息发表客户端, Z i =[0,1]移动客户端取值为1,否则取值为0;

——该消息收藏次数;

B i ——该消息内容。

此处采用模糊数学方法,以值域区间[0,1]来反映各路段的交通通畅程度,畅通度越高代表路段越畅通;置信度集合 Q 中各元素反映了对应的路段畅通度结果的置信程度。

基于RBF的文本信息FCM聚类与交通信息提取具体步骤如下。

a.根据所需产生交通信息的时间点 T t 及时间偏移量Δ t 构建有效时间窗口 T i

b.利用 T i 及道路路段集合 R 对文本信息集合 M 进行过滤分组,构建路段 R l 所对应 V l

c.利用交通信息描述词库 V l 解析中文本信息的内容,提取对应的交通状态信息及方向描述,定量化表达文本信息 V new

d.判断交通信息类型,文中包含两类交通信息,一类为交通管制型的交通信息,如突发性交通事件以及特定点交通状态(如交叉路口或特定位置)描述信息等;另一类为路况型的交通信息,如道路畅通度或行驶速度信息。

e.设定初始交通状态类别数目num,对分组定量化后的文本信息 V new 执行FCM聚类,得到每类交通状态模糊隶属度矩 u 及聚类中心,每条文本信息提取的交通状态类别,判断是否达到设定聚类精度 ε ,若“是”转步骤是j,若“否”转步骤f。

f.选取距每个类别中心最近的 p 个文本信息记录,构建文本信息样本数据记录集 V sample

g.利用样本数据记录集 V sample 训练神经网络模型,得到训练好的神经网络。

h.将文本信息中的所有消息 V new 作为训练好的神经网络的输入数据,根据神经网络输出序列将文本信息重新分为num类。

i.求出从每个交通状态类别中所有文本信息提取的交通信息样本的平均值及文本信息数量 m ,选取每类内 m 最大的交通状态类别的平均值为路段在有效时间窗内的畅通度 D clear

j.将 D clear 插入路况信息更新表 I info

文本信息中的路况信息技术流程如图3.3所示。

图3.3 文本信息中的路况信息技术流程

3.1.5 基于北斗/GPS用户众包的区间交通参数感知技术

与基于用户众包的路况信息感知技术不同,基于用户众包的区间交通参数感知技术,是指用户开放自己移动设备的位置接口,如手机、Pad、车载终端等,通过安装的众包客户终端,将自己的位置、速度、方向等信息实时上传至数据处理中心,如此一来,每一台用户车辆就是一台浮动车。这样做将使浮动车样本量大大增加,提高区间交通参数感知的精度,并可节省购置官方浮动车的费用,性价比极高。

高速公路上“两客一危”以及大货车均采用北斗车载终端,而其他车辆采用GPS车载终端,用户手机一般也采用GPS定位系统。这两种定位终端需要同时考虑,所采集的区间交通参数才能完全表征高速公路的运行状态。因此本部分重点研究基于北斗/GPS用户众包的区间交通参数感知技术。

目前投入使用的北斗二代卫星定位系统与GPS的定位原理相似,且均采集车辆的位置、方向角、瞬时速度与时间标签信息,故可采用同样的方法对其进行处理,以提取路段行程时间等交通参数。但由于这两个系统相互独立,故数据不共享,因此本部分采用同样的方法分别利用北斗数据与GPS数据提取区间交通参数(路段平均行程时间、路段平均行程速度),然后对两个系统提取出的交通参数进行融合,以融合值作为最终结果。融合值包含了北斗与GPS用户所采集的信息,比单源用户信息更能反映实际的交通状态,故而具有更高的精度。由于融合值表征的是高速公路的交通状态,故而对北斗用户和GPS用户均适用,通过进一步处理,所生成的交通信息可同时服务于北斗与GPS用户,其大体过程如图3.4所示。

图3.4 基于北斗/GPS用户众包的区间交通参数感知示意

3.1.5.1 基于用户浮动车的单车行程时间估计

单车路段行程时间是指一辆用户浮动车在目标路段上运行所花费的全部时间,即该车从驶入某路段直至驶离此路段所经历的时间。单车路段行程时间估计是路段平均行程时间估计的基础。

用户浮动车可以采集车辆的位置、速度、方向角与采集时刻点,对两个定位点相对应的采集时刻作差,即可得到这两个定位点间的行程时间,这个结果相对而言是比较准确的,因此若能获取车辆在路段边界(路段起点和终点)的时刻,两者作差即可求得该路段行程时间。但问题在于北斗与GPS定位设备是每隔一个采样时间间隔采集一次定位信息,由于采样间隔的存在,无法保证定位设备在采集数据时用户浮动车一定能够落在路段边界上,而是会存在一定的偏差。因此,将运行时刻作差,并不能直接得到单车在路段上运行的行程时间,还要进行一定的数据处理,才能根据单一用户浮动车的定位点采集时刻估计其行程时间。

(1)路段边界有效区域判定 无论是北斗还是GPS终端,都可能出现工作异常,导致定位数据连续缺失,出现路段边界与相邻定位点距离过大的现象,利用这些定位点计算出的路段边界时刻误差较大。因此,引入路段边界有效区域的概念,即只有当路段边界两侧的定位点位于有效区域内时,才能进行路段边界时刻提取。

r = v c t c +2 R (3.9)

式中 t c ——GPS数据采样时间间隔;

v c ——路段的设计车速;

R ——对于一定置信水平的定位终端误差圆半径。

(2)直接估计算法 直接估计算法又可称作边界时刻提取法,如果路段边界两侧的定位点位于有效区域内,则可利用路段边界两侧的定位点坐标,采用内插的方式估算车辆经过路段边界的时刻,进而计算单车路段行程时间。传统的边界时刻提取算法假设车辆在相邻定位点之间保持匀速行驶,并且按式(3.9)计算路段边界时刻,其原理如图3.5所示。

图3.5 单车路段行程时间直接估计算法原理

式中 t″ ——路段终点时刻;

t 2 t ), t 2 t -1)——路段终点两侧相邻定位点的定位时刻;

——路段终点两侧相邻定位点分别距离路段终点的距离。

同理也可求得路段起点时刻

然而,对于实际交通环境车辆很难保持匀速行驶,特别是定位数据采样间隔较大的情况。因此,利用公式计算得到的路段边界时刻误差较大。如图3.6所示,图中描述了车辆在相邻定位点之间可能出现的减速( S 1 )、匀速( S 2 )和加速( S 3 )三种行驶状态。如果车辆减速经过路段边界,则路段边界时刻位于区间[ t t -1), t″ t )]内;如果车辆加速通过路段边界,则路段边界时刻位于区间[ t″ t ), t t )]内。

图3.6 车辆行驶状态对路段边界时

本部分假设车辆在相邻定位点之间保持匀加(减)速行驶,并且采用车辆行驶状态相对稳定的下游定位点作为参考位置,可以得到如果 v t )= v t -1),则路段边界时刻按式(3.11)进行计算,否则按式(3.12)进行计算。

式中 v t ), v t -1)——当前定位点与前一定位点数据的瞬时速度。

(3)间接估计算法 单车路段行程时间间接估计算法的实质是直接估计路段平均行程速度。相比直接估计算法使用定位点坐标建立模型,间接估计算法依据定位点序列的瞬时速度计算路段平均行程速度。

如果定位数据采样时间间隔较小,用户浮动车短期之内运行状态稳定,可以认为对于定位点两侧一定区间,车辆按照定位点瞬时速度匀速行驶,同时,路段边界附近存在定位点数据,使得定位点序列能够覆盖路段的绝大部分。假设覆盖路段的定位点序列为 Q 0 Q g ,对应的定位时间为 t 0 t g ,瞬时速度为 v 0 v g ,可以利用式(3.13)计算车辆在时段( t 0 t g )内行驶的距离,其原理如图3.7所示。

图3.7 单车路段行程时间间接估计算法原理

对于固定的定位数据采样时间间隔 t c ,式(3.13)可以简化如下。

车辆在时段 t 0 t g 内行驶的平均速度计算公式如下。

对于长度为 L 的路段,单车路段行程时间 t s 计算公式如下。

3.1.5.2 基于用户浮动车的路段平均行程时间(速度)估计

(1)最小用户浮动车样本量确定

①最小用户浮动车样本量确定原则 用户浮动车获得交通参数数据的质量与实际发挥作用的浮动车的数量密切相关。浮动车样本量过少,会增加个体随机性的影响,降低采集数据的精度;相反,如果某时间段内某路段拥有较多用户浮动车数据,则获取的行程时间数据更为准确。

因此,最小用户浮动车的样本数量应该遵循三个基本原则:a.满足用户对交通信息的精度要求;b.交通流信息的成本最低;c.满足工程的可实施性。

②最小样本量确定方法 对于任选一条路段,在计算周期 T 内其区间平均速度估计值为:

式中 ——用户浮动车 i 的区间平均速度值;

n ——计算周期 T 内通过该路段的浮动车的样本数量。

实际交通检测数据表明,车辆区间平均速度近似服从正态分布 N v σ 2 )。根据数理统计中的抽样定理, n 辆浮动车的区间平均速度的估计值服从正态分布 N v σ 2 ),且有:

设浮动车区间平均速度的估计值与实际区间平均速度值 v 的误差小于给定的允许误差的概率不低于1- α ,即:

为标准正态分布值,满足 ,则有:

上述公式仅从数理统计的角度计算样本数量,而高速公路区间车辆平均速度和行程时间是交通流特征的重要参数,用户浮动车样本用来反映交通流总体的特性,其数量的大小与平均速度和行程时间及它们的变化有直接关系。因此,从路段内车辆行程时间角度出发考虑样本量,并引进路段行程时间变异系数ct,ct是路段内浮动车在计算周期 T 内通过路段所需的行程时间的均值与标准差的比值,由此得出路段浮动车样本的最小估计量 n m

式中 γ ——路段平均行程时间允许估计误差;

—— t 分布的双侧100 α 百分位点。

因此,高速公路总路网最小用户浮动车样本量为:

N m = mn m (3.22)

式中 m ——路网中的路段数,为每一条路段的最小样本量估计值。

(2)样本量充足时路段行程时间估计方法 当路段的用户浮动车数量大于 N m 时,则认为此时路段行程时间的采集精度可靠,可以用于路段平均行程时间的统计。因此,在浮动车的样本数量充足的情况下,路段的平均行程时间采用均值法。即通过路段上 n p 个样本的单浮动车行程时间的平均值来估计路段平均行程时间和速度,具体的估计模型如下。

式中 k )——第 k 时段的路段平均行程时间估计值;

k )——第 k 时段的路段平均行程时间样本均值;

t i k )——第 k 时段第 i 辆用户浮动车的单车路段行程时间估计值。

(3)样本量不足时路段平均行程时间改进自适应平滑估计法 当路段用户浮动车数量小于 N m 时,直接采用均值方法将使得路段平均行程时间精度大大降低。对于此种情况,可采用自适应平滑法(adaptive weight exponential smoothing,AWES)进行样本量不足情况下的路段平均行程时间估计,即采用从上一个时段对当前时段的预测值(即上一个时段的平滑值)作为对当前时段的估计值。

根据一次指数平滑模型的基本公式,可得:

式中 s (1) k -1)—— k -1时段的路段行程时间一次平滑值;

k -1)—— k -1时段的路段行程时间估计值;

s (1) k -2)—— k -2时段的路段行程时间一次平滑值,即 k -2时段对 k -1时段的预测值;

α ——平滑系数,0≤ α ≤1。

可以看出,指数平滑法完全使用先验数据(历史数据)对当前时段的行程时间进行预测,用预测值作为当前时段的估计值。其中,平滑系数 α 的确定非常重要。 α 越大, k -1)在 s (1) k -1)中所占的比例越大,当 α =1时, k )= s (1) k -1)= α k -1), k 时段的行程时间估计值等于 k -1时段的估计值,即仅考虑上一个时段的估计值,不考虑过去数据的影响;反之, α 越小, s (1) k -2)所占的比重越大,当 α =0时, k )= s (1) k -1)= s (1) k -2),即不考虑上一个时段的估计值,仅考虑最近的先验数据平滑值。

通过对基本一次指数平滑公式变形可得:

可以看出,指数平滑预测是用预测误差不断地对上一个时间段的平滑值进行修正,而得到当前时段的平滑值, k )- s (1) k -1)即预测误差, α 的大小体现了修正的幅度。因此,当预测误差越大时, α 也应越大,表示越倚重近期数据所载的信息,修正的幅度也较大;预测误差越小, α 越小,修正的幅度也越小。

但是常规指数平滑方法的加权系数是固定的,模型无法自动调整。如果能够根据预测误差的大小不断地对加权系数进行调整,使其具有自适应的特性,则可以在一定程度上提高平滑模型的预测精度。因此,引入误差跟踪信号的概念。它是一个基于预测误差的变量,根据误差跟踪信号的变化对 α 的取值进行不断调整。

k 时段,定义两个误差信号。

E k = re k +(1- r E k- 1 (3.26)

A k = r | e k |+(1- r A k- 1 (3.27)

式中 E k ——平滑误差;

A k ——绝对平滑误差;

e k ——预测误差, e k = k )- s (1) k -1);

r ——加权系数,0< r <1,一般取 r =0.1~0.2。

k 时段的跟踪信号 C k 定义为:

显然,当指数平滑模型能够较好地反映预测对象的发展规律时,预测误差 e k 完全是由随机误差造成的,因而 e k 服从均值为零的正态分布,则有:

因此,当预测无偏时, E k 总是在0附近波动, C k 趋近于0,此时预测误差很小,需要修正的幅度较小,所以 α 也应取小值。而当预测有偏时,偏离程度越大, C k 的绝对值越接近于1,此时预测误差较大,需要修正的幅度较大,所以 α 也应取大值。由此可知, C k 的绝对值能较好地表征平滑系数 α 。故可令平滑系数 α k 为:

α k =| C k |  (3.30)

因此 k 时段的路段平均行程时间估计值为:

上述自适应平滑法完全使用先验数据估计当前时段的路段平均行程时间,完全不考虑当前时段的用户浮动车样本数量。虽然当前时段用户浮动车样本数量小于最小样本数量,但仍能够在一定程度上反映当前时段的交通流状态。上述自适应平滑法完全舍弃这一部分数据,一方面造成了数据的浪费;另一方面,当发生交通事件时,单纯的先验数据平滑值无法反映这一状态,将造成行程时间的估计值出现较大偏差。因此,需对对上述自适应平滑模型进行改进。

引入加权系数 β k

式中 n m ——路段最小用户浮动车样本数量;

—— k 时段路段浮动车样本数量。

因此,修正后的 k 时段的路段平均行程时间估计值为:

k 时段路段平均行程速度估计值为路段长度与路段平均行程时间的比值。

该模型同时考虑当前时段样本均值与上一时段对当前时段的预测值,浮动车样本越小, k )越依赖上一时段的预测值。当 β k =0时,说明当前时段该路段没有用户浮动车,则 k )为上一时段对当前时段的预测值, k )= s (1) k -1);反之,越大,则 k )越依赖当前时段样本浮动车的观测值,当 β k =1时,说明当前该路段浮动车样本数量达到要求,直接采用样本均值作为路段平均行程时间估计值, k )= k )。

(4)样本量不足时中位数估计法 在实际工程中,上述方法计算较为复杂,保证算法实时性对处理器的要求较高,因此针对项目工程应用可采用一种更为简便的中位数估计法。

当样本数量不足时,均值法将产生较大误差,而且没有足够的样本数据绘制分布曲线,应用回归法估算行程时间。在此种情况下,利用样本数量中位数来估计交通流路段行程时间。中位数法的核心思想是将现有样本数量由小到大进行排列,构造成顺序统计量,求取其中位数作为估计值。对于行程时间估计而言,顺序统计量即为充分统计量,即顺序统计量已包含交通流行程时间总体估计中的未知信息。中位数不受个别极端值的干扰,因此在样本数量较少时,中位数估计的抗干扰能力强于平均值估计。

将第 k 时段的单车行程时间 n 个样本值由小到大进行排列,得到顺序统计量 t k (1)、 t k (2)、 t k (3)、…、 t k n ),则路段平均行程时间估计值为:

3.1.5.3 北斗/GPS用户终端路段平均行程时间融合估计

上一小节研究了单一源用户浮动车的路段平均行程时间估计方法,由于北斗终端与GPS终端的定位方法相似,且采集的数据形式相同(都为位置、速度、方向角、采集时刻)。因此,上一小节中的路段平均行程时间估计方法对于两种终端都适用。

本小节在单一数据源的路段行程时间估计基础上,通过对北斗用户浮动车和GPS用户浮动车的估计结果进行融合处理,从而得到一个更为准确的路段行程时间,用该融合值表征该路段的路段平均行程时间,能进一步提高路段平均行程时间的精确度。

(1)引入时间域的自适应加权平均融合估计 自适应加权平均法进行融合处理,以总方差最小为目标,为基于北斗浮动车检测信息估计的路段行程时间以及基于GPS浮动车检测信息估计的路段行程时间,根据它们所处的不同条件,赋予相应的权值,使数据融合的结果在总均方误差最小这一最优条件下,根据两种浮动车所得到的检测值,以自适应的方式寻找其对应的权值,使融合后的行程时间值能最真实地反映实际的路段平均行程时间。

①最优权重的确定 融合处理后的路段行程时间 可表示为:

式中 ——基于北斗浮动车的路段平均行程时间估计值;

——基于GPS浮动车的路段平均行程时间估计值;

ω b ——北斗浮动车自适应权重;

ω g ——GPS浮动车自适应权重, ω g =1- ω b

设北斗浮动车和GPS浮动车的标准差分别为 σ b σ g ,则融合后的估计方差为:

融合的目标是使融合后的估计方差最小,用拉格朗日乘子法构建当约束条件权值之和为1时的目标函数,使其最小,即:

解得,当目标函数取最小值时:

此时,融合处理后的路段行程时间可表示为:

融合值的均方差为:

σ 2 进行分析, ,同理可得 ,若北斗浮动车的测量方差和GPS浮动车的测量方差相等,则 ,此时融合后的精度是单一源精度的2倍。由此说明,当采用上述最优加权方法对基于北斗浮动车和GPS浮动车的路段行程时间估计值进行融合,即便某一种浮动车的估计精度较差,参与融合后也有利于提高总的估计精度。

由于 实际上是未知的,虽然可以通过终端设备本身的测量方差或依经验进行指定,但可能与实际运行环境产生较大偏差,因此下面对 进行确定。

②引入时间域估计值的单一源估计方差确定 设北斗浮动车和GPS浮动车对应的估计误差分别为 ε b ε g ,在无偏估计的条件下, ε b ε g 的期望为0,则有如下关系。

由于 ε b ε g 之间互不相关,则 的互相关系数 R bg 满足:

的自相关系数 R bb 满足:

则:

同理可得 = R gg - R bg

引入时间域估计值对 R bb R bg 进行计算。在第 k 时段, R bb 的时间域估计值为 R bb k ), R bg 的时间域估计值为 R bg k ),则:

因此,第 k 时段北斗浮动车的估计方差 k )和GPS浮动车的估计方差 k )分别为:

因此北斗浮动车和GPS浮动车的测量方差都在随着时间段的推移而发生变化,因此最优权值也在随着时段 k 而变化。

(2)BP神经网络融合算法

①算法原理概述 BP(back propagation)神经网络是1986年由Rumelhart和McCel-land为首的科学家小组提出的,属于人工神经网络的一种。人工神经网络是由大量的处理单元(即人工神经元)广泛互联而成的网络,它试图以一定的程度和方式模拟人脑的细胞结构、神经结构和思维特征来获得近似于人类的思维能力,特别适用于很难用常规数学方法表达的信息处理过程。

在多源采集系统中,各信息源所提供的环境信息都具有一定程度的不确定性,且不同信息源采集的同种信息(如路段平均行程时间)之间的相关关系难以用常规的数学公式进行表述,因此对信息的融合过程实质上是一个不确定性推理过程。BP神经网络可以采用特定的学习算法来获取知识,得到不确定性推理的融合机制。

一个基本的人工神经元模型是一个多输入、单输出的非线性处理器(non-linear processing element),其结构如图3.8所示。

图3.8 人工神经元模型结构

它共有 n 个输入 x i i =1,2,…, n )和一个输出 u w i 是与其相应的连接权值。 θ 为神经元内的阈值,用 x 0 =-1代表固定偏置输入,令其相应的连接权值 w 0 = θ ,则有:

式中 f ()称为转移函数(激励函数),其作用是将可能的无限域变换到一个指定的有限范围内输出,它模仿的是生物神经元所具有的非线性处理能力。 f ()同时也是人工神经网络设计中需要重视的第一个要素。 W X 分别是由 w i x i i =1,2,…, n )构成的列矢量, W T W 的转置。

人工神经网络由多个基本神经元构成,这些神经元通常线性排列成组,称为层。每一个处理单元有许多输入量,而对每一个输入量都相应有一个相关联的权重。每个神经元具有单一输出,并且能够与其他神经元连接;存在许多(多重)输出连接方法,每种连接方法对应一个连接权系数。严格地说,人工神经网络是一种具有下列特性的有向图。

a.对于每个节点存在一个状态变量 x i

b.从节点 i 至节点 j ,存在一个连接权系数 w ji

c.对于每个节点,存在一个阈值 θ j

d.对于每个节点,定义一个激励函数 f j x i w ji θ j ), i j ,对于最一般的情况,此函数取 的形式。

三层BP神经网络结构如图3.9所示。

图3.9 三层BP神经网络结构

x j —输入层第 j 个节点的输入, j =1,…, M w ij —输入层第 j 个节点到隐含层第 i 个节点之间的权值; θ i —隐含层第 i 个节点的阈值; ϕ x )—隐含层的激励函数; w ki —隐含层第 i 个节点到输出层第 k 个节点之间的权值, i =1,…, q o k —输出层第 k 个节点的输出, k =1,…, L

算法包括两个过程:信号的前向传播和误差的反向传播。

②信号的前向传播过程 隐含层第 i 个节点的输入net i

隐含层第 i 个节点的输出 y i

输出层第 k 个节点的输入net k

输出层第 k 个节点的输出 o k

③误差的反向传播过程 误差的反向传播,即首先由输出层开始逐层计算各层神经元的输出误差,然后根据误差梯度下降法来调节各层的权值和阈值,使修改后的网络的最终输出能接近期望值。

对于每一个样本 p 的二次型误差准则函数 E p 为。

系统对 P 个训练样本的总误差准则函数为:

根据误差梯度下降法依次修正输出层权值的修正量Δ w k i ,输出层阈值的修正量Δ a k ,隐含层权值的修正量Δ w ij ,隐含层阈值的修正量Δ θ i

输出层权值调整公式:

输出层阈值调整公式:

隐含层权值调整公式:

隐含层阈值调整公式:

又因

所以

④北斗/GPS融合网络结构与算法流程设计 BP神经网络的结构设计主要涉及网络层数、输入层/输出层节点数、隐层节点数、激励函数确定等。

a.网络层数 已有的理论分析已经表明,隐层数最多2层即可。只有当要学习不连续函数时,才需要2个隐层。具有单隐层的神经网络能映射一切连续函数,因此本部分选择具有1层隐层的BP神经网络。

b.输入层/输出层节点数 在本部分中,是对北斗和GPS二源平均路段行程时间进行融合,因此输入层节点数确定为2,输出层节点数确定为1。

c.隐层节点数 对于多层前馈神经网络来说,隐层神经元个数的确定是成败的关键。若数量太少,则网络所能获得的用以解决问题的信息太少;若数量太多,不仅增加训练时间,难以在人们所能接受的时间内完成训练,而且可能出现“过度吻合”的问题。关于隐层节点数已有不少经验数据。本部分中,按以下公式确定隐层节点数。

式中 q ——隐层节点数;

M ——输入层节点数;

a ——常数,取1~10。

d.激励函数确定 激励函数视神经元核心所在,它决定神经元的运动功能。选好激励函数及其参数极为重要,不同的激励函数,或者带有不同参数的同一类激励函数,表示的运动过程也不一样,目前常用的是Sigmoid函数,见下式。

算法流程如图3.10所示。

图3.10 算法流程 TRrHJbzY7cqeEaETkW0GFiEWUV3ddS9RKB4Rb1hMf5vkv20jDaPQsCCPbELxvHz3

点击中间区域
呼出菜单
上一章
目录
下一章
×