解决交通问题的关键在于科学、合理和有操作性的交通规划,而交通规划中方案的设计和评价依赖于一系列的交通模型。根据理论、数据、定义和标定方法的不同,有多种模型可供选择。如何根据现有的资料、信息和数据,去选择恰当的模型,以实现计算过程的快捷和结果的可靠,为规划中某一个步骤或结论提供支撑,是交通规划工程师重要的任务。交通规划中的模型根据数据类型和输出结果可分为以下几种:集计(aggregate)模型、非集计(disaggregate)模型、截面(cross -section)数据、时间序列(time series)数据、面板(panel data)数据、显示性偏好(Revealed Preference,RP)数据、意向性偏好(Stated Preference,SP)数据。
在很多人的认识中,理论模型就是大量的公式及推导。为了能够描述交通系统中的繁多因素,刻画系统中各出行主体之间的复杂关系,交通规划中的模型确实表现得较为复杂。模型的复杂性和描述交通系统的精确性往往呈正向相关。一些理论模型为了追求较高的精度,对模型所需数据和计算环境提出了很高的要求,而这在规划工程实践中非常难以操作,造成了理论模型与规划实践的脱节,甚至使一些交通规划师认为交通规划中的理论与实践之间的差距越来越大。尽管这一认识的正确性还有待商榷,但理论模型的实用性确实应该得到重视。
理论模型在应用时不仅需要便于采集数据和计算,对模型估计结果的解释也非常重要。从离散选择中的模型来看,越复杂的模型越难以解释,这也是为什么最简单的Logit模型至今应用非常广泛的原因。模型的解释取决于创建模型时的理论思想,有时不同的理论殊途同归,导致一致的模型形式,但模型估计结果的解释依然因理论思想的差异而有所差异。比如重力模型的形式,既可以通过物理学理论推导得出,也可以通过最大熵理论或效用最大化理论推导得出。所以对于重力的估计结果的解释,就要根据其理论基础分别来阐述。
在建立一个新的理论或模型时,传统上有两种经典的方法:演绎(deductive)和归纳(inductive)。演绎通常是先建立或推导出模型,再和实际观察到的现象进行比较和拟合,往往在理论科学中应用较多。归纳通常是基于已有的观察数据,从中总结出内在的规律,进而建立相应的理论或模型,往往在应用科学或社会科学中使用较多。通俗地说,演绎是从内到外,归纳是从外往内,但二者并不完全对立。如我国著名数学家王元曾说:“理论数学和应用数学应该没有严格的界线,它们都是由问题带动而发展的,最早的数学来源于外部,最早的几何学也是来源于外部,但随着数学科学的发展,数学内部产生的问题,也成为数学发展的一种内在动力。比如哥德巴赫猜想1+1的证明本身没有什么意思,证明它的意义在于通过它来发展数学,把数学发展好。”
通常一个模型可以简单用变量 X 和参数 θ 的函数形式来表达:
在利用实际数据求解上述模型中的未知参数 θ 时,一般称之为对模型的标定(calibration)或估计(estimation)。在交通规划的模型中,标定和估计有着不同的含义。标定模型指在一个或多个拟合参数最优的条件下寻找未知参数 θ 的值,这里的拟合参数一般为实地观测数据的函数。标定主要用在对集计模型的参数计算中。估计模型则是在寻找参数 θ 值的同时,判断参数对模型的显著性影响,可以将不显著的参数剔除出模型。估计更多用在非集计模型上。
在建立交通规划的模型之前,首先需要明确的是哪些是输入变量,哪些是我们所需要的输出结果。真实环境中所有和模型相关的因素不可能都在模型的输入变量中体现出来,有些因素可能无法被观测,有些因素可能被模型背后的理论所忽略,有些因素则被模型简化掉。这些无法具体纳入模型的因素在模型中成为误差项或随机项的一部分,另一部分可能源于样本误差或其他因素。所以使用任何模型得出的结果都是一种条件性的预测,即在一定输入自变量条件下产生因变量的预测结果。建立模型的目的不仅在于基于现状预测未来,有时还利用模型去观察输入条件发生各种变化时输出结果各种变化的可能性,即对于各种输入变量的敏感性分析。这就意味着需要多次计算模型以预测各种结果,如果模型较为复杂,计算时间就会很长,使敏感性分析成为一件很冗长的工作。为了能够快速利用模型对各种情况进行敏感性分析,需要从算法或硬件上提高计算效率。对模型计算所消耗计算资源方面的研究,也日趋引起了重视。
总的来说,模型是一种数学工具,用来反映各种影响因素发生变化时因变量的敏感性。这里的因变量往往是建模者所关注系统中的某种选择结果或行为。一个成功的模型,即使在有限数据和规定时间内,也能够为决策提供及时和有效的建议,使其结果达到最优。简单来说,在复杂的交通系统中,无论是交通管理者、承运人还是出行者自身,都会面临无数的选择或决策,在决策过程中受到各种因素的影响,建模就是将过程和影响因素数学化,建立因素和选择结果之间的映射关系,这样就可以通过对某些因素的变动观察选择结果的变化,为个体选择提供建议,这些建议对于管理者而言就会形成相关政策建立的理论基础,对于承运人和出行者而言就是达到其期望约束条件下选择方案的确定,如出行时间选择、路径选择和方式选择等。
在一定模型基础上可以进行预测。预测是对未来情况定量化的预期。在交通规划中通常包括对未来出行需求、各种出行方式交通流、出行时间和费用等的预测。对一些交通基础设施建设项目的工程可行性研究中,更重要的是对项目的财务和国民经济分析,通过从经济和社会两个角度来预测项目建成后的收益,从而判断项目实施的可行性。鉴于未来的不确定性,在进行预测时往往采用多种方法来验证最后预测的结果,或者采用经过无数次验证的行业内公认的标准模型,以确保预测结果的可比性。
从上文对模型的概述性介绍可知,无论是演绎模型还是归纳模型,核心都是观测数据。在交通规划中,根据对所使用数据的集计程度,将模型分为集计和非集计模型。集计是从英文aggregate翻译过来的,本意为聚合、集合、总和、合计。交通规划中的集计数据指反映描述出行者群体属性的调查数据,如一个区域(zone)内所有出行者的平均年龄、男女比例、平均收入、总的出行次数等。非集计是在英文aggregate加了一个前缀dis,即disag-gregate,意为分解的、无组织的、解体的。非集计数据在交通规划中指描述个体的属性数据,这里的个体可以是出行者、交通管理者,也可以是承运人,如区域中每一个出行者的性别、年龄、职业、收入,甚至心理状态等。显然,集计数据是非集计数据在某种程度或方法上的集合,从包含的信息量上来说,集计数据较为粗糙,非集计数据较为精细。按照计算机领域中的说法,非集计数据粒度较小,集计数据粒度较大。通常对同一研究对象,非集计数据可以转化为集计数据,但反向是不可逆的。
交通规划是一种宏观规划,主要目的是根据对交通需求现状的分析和未来的预测为研究区域范围内各种交通设施的建设规模、水平和时序提供详细的计划。从城市范围来看,城市内各种交通设施的服务对象是面向广大出行者,所以无论是对现状的分析还是对未来交通需求的预测,其模型计算结果必须在集计层面才能适应各种交通设施建设的可行性分析。因而,虽然非集计模型更加细致入微,但在交通规划中通常需要采用一定的方法将非集计模型的结果转化为集计数据,便于规划中采用。
直到20世纪70年代,集计模型在交通规划中都处于主要地位。从基础数据的收集、模型的建立、模型的计算和结果的解释,交通规划中集计模型的建立都已经有了一套成熟而可靠的方法,并且一些经典的集计模型已经集成在很多交通规划的软件包中,只要有调查的数据,可以很快计算出结果。诚然,集计模型存在不够灵活、不够精确和所需数据采集成本巨大等缺点,但非集计模型也存在形式结构较为复杂、估计算法较为烦琐和所需数据很多时候难以直接用于预测等不足之处。所以在目前的交通规划工程实践中,还是以集计模型为主,非集计模型为辅。
非集计模型于20世纪80年代开始流行,在很多应用领域都体现出比传统集计模型更大的优势。在使用非集计模型时,特别在解释模型的估计结果时,与集计模型相比需要建模者有一定统计和计量经济学方面的知识。集计模型和非集计模型最大的区别在于描述行为方法上的差异,描述个体行为的非集计模型显然在精细程度上要优于描述群体行为的集计模型。在何种情况下采用集计模型、何种情况下选择非集计模型,并没有广泛而公认的标准或规范,需要交通规划师根据规划研究区域的特点、易于调查数据的类型和规模,以及规划项目的需求来综合决定。
无论是集计模型还是非集计模型,计算或估计的基础都是数据。在交通规划中,经常会用到经济、人口、出行和意愿等方面的数据。根据数据的结构类型,可将数据集划分为截面数据、时间序列数据和面板数据等。对应不同的数据集,往往应用不同的模型进行计算。
1)截面数据(cross-sectional data)是在同一个时间点上所收集的个人、家庭、公司、城市,甚至国家的相关属性数据。可以通过截面数据的英文本意来理解,cross section是横断面、剖面、截面的意思,在时间轴上的某一个断面所获取的数据,那就是截面数据。当然,在实际调查时,并不能精确保证同时获取所有调查对象的数据,比如在居民出行调查中,每个家庭在填写出行问卷的时间上肯定会有所差异。但在截面数据中,会忽略收集数据时的时间差异,认为时间对数据并没有影响。截面数据还有一个重要的特性,就是假设其数据都是通过对总体的随机抽样获取的。截面数据在经济和社会领域应用非常广泛,目前,越来越多的经济和社会学模型都开始在交通领域一展身手,所以截面数据在交通规划中也起到了非常重要的作用。将居民出行调查中出行者的自身社会经济特征数据整理到计算机上后,就是一种截面数据,见表1.1。
表1.1 居民出行调查的截面数据
表1.1中,变量id为样本中每一个被调查对象(出行者)的编号。和其他变量不一样的是,变量id并不是出行者的属性,只是在各种软件包中,对数据集中的每一行观测记录都要有一个唯一的标识。由于截面数据是通过随机抽样产生的,因此数据中各行记录的次序,对数据或依据数据建立的模型并没有影响。表中的male和married都是二项变量:male中的1代表男性,0代表女性,married为1表示已婚,0表示未婚。
2)时间序列数据(time series data),顾名思义,即随时间变化的数据,如股票的价格、货币供应量、消费者物价指数、国内生产总值(Gross Domestic Product,GDP)、人口、小汽车保有量、总出行次数等。相对于截面数据而言,时间序列数据之间的相关性更强,这是因为经济社会中很多变量随时间变化的趋势比较稳定。时间序列数据另一个重要的特性是数据采集的频率。不同类型的时间序列数据在采集频率上往往不同,即使同一种变量在不同采集频率下也表现出不同的含义。如交通流量,单位可以是辆/h、辆/天、辆/周、辆/月等。在交通规划中,经常要预测规划特征年每个交通小区的人口、经济、收入、小汽车拥有量等数据,用来计算特征年各交通小区的产生或吸引量。显然,这里的经济、人口和收入等数据是随时间变化的,正是通过拟合这些变量随时间变化的趋势,才能实现预测。具体的数据示例见表1.2。
表1.2 交通小区社会经济数据
表1.2中,变量year为年份,pop为人口,avgincome为收入,carnum为人均小汽车拥有量,motonum为人均摩托车拥有量。
3)面板数据(panel data)或纵向数据(longitudinal data)由截面数据和时间序列数据混合而成。在统计和计量经济学中,更多用“面板”来描述这类数据,而在生物统计学中,更多用“纵向”。还是以居民出行调查数据为例,见表1.3。
表1.3 居民出行调查的面板数据
personid为出行者编号,tripno为某个出行者出行次数编号,dtime为出行时间,ozone为出行的出发小区编号,dzone为出行的终点小区编号,mode为出行方式编号。每一行代表一次出行,如编号为1的出行者,有两次出行,编号分别为1和2,出发时间分别为早上的7:50和傍晚的5:00,出行方式编号为1。编号为2的出行者则有三次出行,tripno及以后的变量反映的是出行的属性。面板数据最大的特点是需要获取同一调查对象不同时间节点上的数据,显然这种数据类型和截面数据及时间序列数据相比较更为细致。另外,面板数据较为适合用于研究某一项决策或政策发布后产生的影响。
在一个现实复杂的系统中想要通过设计试验的方法来观察系统的某种变化是十分困难的,因为很多系统的发展变化是不可逆的,也是不可控制的。比如对天文学家来说,他们所能做的仅仅是被动观察,而无法像化学家一样,通过实验室中的各种实验来证实自己的想法或假设。一直到20世纪80年代中期,交通规划中需求模型所需的数据主要都来源于对居民出行的直接观测或调查,通过这种方式获取的数据称之为显示性偏好(Revealed Preference,RP)数据。RP数据调查的成本巨大,只适用于可直接观测的属性或行为,无法描述诸如舒适性、便利性等心理状态。
意向性偏好(Stated Preference,SP)调查方法来源于市场研究领域,其具体方法为假设一系列的问题或选项,请被调查者填写。SP数据反映的是被调查者基于问卷的不同情景下所做出的反应。在许多实际的交通需求分析中,要对以前并不存在的交通服务或政策措施进行效果分析时,一般无法或者很少得到RP数据,为此需要通过SP调查获得一些“假想”的偏好数据。S P数据与RP数据相比有可操作性高、数据误差可调、选择方案集合明确等优点,但也存在可靠性较低的不足。SP调查的最大特点在于调查的内容是尚未发生的,因此其选择项的条件可根据未来的状况进行假定,克服了以往预测方法中的外插性问题。在SP调查过程中,常利用数学原理设计SP调查表来减少甚至消除各变量之间的相互依赖性,以得出合理的调查问卷。在保证一定精度的前提下,最大限度地精简调查表中被调查者的判断次数,提高交通SP调查的工作效率和结果准确程度,进而保证模型的精度,成为交通SP调查表设计时最为关心的问题。