写在前面
大数据给交通需求模型开发基础带来了革命性的变化。对范式转变的思考既是对新时代数据条件变化的适应,也是提升交通需求模型精度的必然要求。基于基础数据条件的变化,对交通需求模型四种范式转变进行总结和思考:从数学优化到因果推断,强化模型对出行行为的解释能力;从比例因子到概率抽样,使得模型的物理意义更为明确;从整体重构到增量模型,实现对现状需求的继承和迭代演化;从有限约束收敛到先验实证,提升交通需求模型精度。指出对于交通治理实践运用和科学研究而言,模型精度是检验模型质量的唯一和最高标准。对范式转变的重视不是为了否定既往交通需求模型技术路线,而是在继承中创新发展,提高交通需求模型对现实物理世界的模拟能力和预测能力。
陈先龙
广州市交通规划研究院有限公司 科技创新中心主任 教授级高级工程师
交通需求模型发展演变
自20世纪50年代底特律都会区交通研究[1](Detroit Metropolitan Area Traffic Study, DMATS)和芝加哥区域交通研究[2](Chicago Area Transport Study, CATS)开展以来,以四阶段模型(Four-Step Model, FSM)为代表的集计模型不断发展和完善[3-4];20世纪70年代中后期发展出半集计的出行链模型(Tour-Based Model, TBM)和非集计的活动模型(Activity-Based Model, ABM),以及后来的智能体模型(Agent-Based Model, AgBM)与混合交通需求模型(Hybrid Travel Demand Model)。随着2010年大数据时代[5]到来,手机信令、互联网时空位置、道路卡口监测等数据应用普及,交通需求模型的数据基础发生了质的变化,数据驱动的深度学习、强化学习等人工智能建模方法[6-7]陆续被应用于交通需求模型开发中。
70多年来,交通需求模型技术在形式上不断发展和进步,对出行行为的解释也不断完善;在开发范式上分为以特征调查为基础的出行活动建模方法和以机器学习为核心的数据驱动模型两大类(见图1)。

图1 交通需求模型开发范式
从出行活动建模来看,尽管不同建模方法对出行需求的解释从集计到半集计再到非集计不断变化,但其本质都是以小样本特征调查数据为基础,利用数学优化和统计分析方法进行参数标定、还原整体的过程,模型检验仍以核查线交通流观测数据为主要依据。然而,即便模型结果与核查线观测数据间的误差很小,交通需求模型能否反映真实出行OD仍有待进一步验证[8]。尽管出行活动建模方法可能存在问题,但其可以较清晰地解释出行行为。
大数据为交通需求模型带来了改进的可能,一方面,大数据可以帮助模型获取更加可靠的输入条件和校验信息;另一方面,大数据也产生了以长周期时空位置数据为主要输入的数据驱动模型[9-10](Data Driven Model, DDM)和数据融合合成模型[11](Data Fusion Synthetic Model)。以机器学习为核心的数据驱动模型在一定程度上提升了现状交通需求模型的可靠性,但对出行行为的可解释性仍有待强化。同时,数据驱动模型或融合模型也受到数据质量的限制,如大数据自身的颗粒度、连续性和可靠性会直接影响模型的精度。此外,除了部分票务或收费系统数据,很少有数据能完整记录人口的多种交通方式出行活动。因此,从交通需求建模而言,多元数据融合对于刻画出行链是一项必要的工作,这也回答了为什么有了大数据仍需要交通需求模型的问题[12]。
从基于小样本数据描述人或车的单日出行起讫点、方式、时刻,到基于大数据描述活动时空轨迹,数据对出行行为的刻画能力显著提升,使得研究人员能够更加充分地获取出行者活动及时空分布特征。从小比例抽样个体(人或车)的出行建模转向大样本人群、车辆活动轨迹的完整复现,可以获取更加准确的出行总体。这些特征数据和总体数据一方面可以作为出行行为建模的输入条件,另一方面可以改变传统建模方法中采用数学优化方法以及出行总量、核查线等运行指标进行参数标定和校验的模式。这一优势以更接近真实总体的结果作为先验条件,审视传统交通需求模型理论可能存在的问题并探索改进方向。为此,本文依托大数据带来的优势和变化,深入探讨与之相适应的交通需求建模方法可能带来的改变,既利用好出行活动建模对出行行为的可解释性,又发挥大数据对模型精度的提升作用。
从数学优化到因果推断
1
数学优化模型的问题
数学优化方法几乎贯穿了交通需求建模的全过程,如出行分布常用的重力模型、方式划分采用的Logit模型、交通分配采用的均衡模型等。然而数学优化并非因果,对出行行为特别是出行分布中目的地选择预测的可解释性不足。
例如,出行分布重力模型[13]以各交通小区的出行产生/吸引量、网络出行阻抗skim矩阵和目标出行阻抗分布曲线为输入条件标定阻抗函数参数,收敛标准为各交通小区的出行产生/吸引量及出行阻抗分布满足收敛条件或达到最大迭代次数。阻抗因子的计算公式为

式中:f(tij)为阻抗因子,是交通小区i与j之间的阻抗函数,通常用基于网络模型计算所得的阻抗指标变量tij的函数表示;a,b,c为模型参数,a=b=0和a=c=0分别对应幂函数和指数函数。重力模型的出行OD矩阵公式为

式中:i,j,l为交通小区序号,m为交通小区总数,Tpij为交通小区i产生的、目的地为交通小区j、目的为p的出行量;Ppi为交通小区i、目的为p的出行产生量;Apj,Apl分别为交通小区j和l、目的为p的出行吸引量;Kij,Kil为可选调整系数,又称为K系数,用于表示出行阻抗之外变量的影响。
从模型表达式不难看出,除了参数a,b和c,K系数对模型结果也有较大影响,更重要的是即便参数标定结果非常理想,模型结果是否能够反映城市交通真实状况仍有待验证。实证研究表明[3, 14-15],通过传统数学优化方法几乎不可能获得高质量的出行分布矩阵,而大数据为验证提供了可能。
2
因果推断的可能性
以长周期的海量时空位置数据、城市交通运行监测数据、居民出行调查特征数据、社会经济数据,以及土地利用现状与规划数据为基础,文献[3]以出行者活动稳定性为抓手,构建了一种需求属性前置的出行活动模型框架(见图2)。该框架的核心思想是利用大数据尽可能挖掘城市真实出行活动的特征和规律,在复刻城市现状出行基础上,利用个人属性变迁实现对近中期的出行推演预测,也就是说,个人属性和城市活动模式是因果推断和相关性分析的基本前提。通过大数据尽可能挖掘个体活动与群体活动模式的演化过程,使得出行行为建模从数学优化向因果推断的转变成为可能。模型具体步骤包括:
1)利用人口普查、经济普查和基于地理位置的服务(Location-Based Services, LBS)等数据推断总量数据,通过居民出行调查、人口普查获得家庭成员特征数据。以总量数据和家庭成员特征数据为基础开展人口仿真研究(Population synthesis),构造符合个体与总体特征的人口分布。
2)基于手机信令或LBS数据推断职住关联OD矩阵,对各交通小区的就业人口进行工作地分配,赋值个人空间位置属性。
3)利用手机信令或LBS数据区分居住地、工作地、日常生活和其他4类主要出行目的地,构建活动矩阵,发现个体出行活动稳定性特征[16]。
4)由于居住地和工作地决定了通勤的起终点,可利用个体职住属性开展通勤出行活动预测的因果推断。利用群体活动模式稳定性进行偶然出行活动预测的相关性分析,即同区域、同目的出行的目的地具有相似性,从而形成群体出行活动稳定性。
5)最后,基于土地利用的变化推演个人属性的时空特征,进而预测未来出行需求。

图2 需求属性前置的出行活动模型框架
中国超(特)大城市已经进入存量更新发展阶段,既有的居民个体选择和时空活动模式对未来活动模式产生主导性影响。因此,充分挖掘城市真实现状并进行发展演绎以提升交通需求模型精度,对下阶段中国城市交通治理和精细化管理具有战略意义。同时,数据可得性、大数据建模方法和试验研究表明需求属性前置的出行活动模型框架具有很强的可实施性。
从比例因子到概率抽样
一个与物理世界相违背的概念“实数解”几乎贯穿了交通需求模型求解的全过程,传统交通需求模型方法中,出行生成率、需求空间分布、交通方式选择和交通量分配均为实数解。但是现实物理世界中不会出现0.5次出行,也不会出现0.5辆车,即从物理世界的角度来看模型的处理方法是存在局限的。实数解产生的另一个问题是交通需求的碎片化[14],也给后续的微观交通仿真带来了新的障碍。如何把小数位的车辆聚合成整数是微观交通仿真的难点之一。
1
方式划分的概率问题
ABM建模方法能够实现出行生成和出行分布的整数解,但在方式划分和交通分配环节所得结果仍然是实数解。以方式划分为例,采用最简单的多元Logit模型[17](Multinormal Logit Model, MNL),交通方式m被选择的概率

式中:Um,Ui分别为交通方式m和i的效用函数。
经典教科书[13]交通方式选择模型将Pm定义为交通方式被选择的概率(choice probabilities),现实模型操作过程中会用Pm乘以总交通需求,得到各交通方式的交通量,这使得原概率的概念转换成了比例(proportion)。
基于韦氏、牛津和朗文三种词典对概率(probability)的释意可以得出结论:概率的本意是发生的可能性。在出行方式选择过程中,即便某种交通方式的概率仅为1%,但如果出行者选择了该方式,那么结果则为1,当然更大的可能是结果为0;但在以比例计算的逻辑中,如果概率为1%,那么所得结果只能是0.01。在传统模型操作过程中将概率按照比例进行处理解决了模型求解的稳定性问题,但也带来了模型非整数解与现实物理世界的矛盾。
2
交通分配的概率问题
比例问题抑或概率问题的矛盾也出现在交通分配算法中。例如著名的Dial分配算法[18-19],其计算过程也是将路径选择的概率作为比例来计算,得到碎片化的路径交通需求,与现实物理世界形成矛盾。Lin X 等[20]提出了基于整数解的多车种交通分配方法,解决了交通量碎片化的问题。均衡交通分配的理论基础是效用最大化,即理性选择(经济理性人假设),并在此基础上考虑网络均衡约束。现实中非理性行为是普遍存在的,且交通系统更大的可能是处于非均衡状态,所以均衡分配所追求的均衡状态在现实中缺少依据。T. de la Barra[21]在其主持开发的交通土地利用一体化软件TRANUS中采用枚举路径方法进行交通分配,该方法减少了一定的计算量,但仍然将概率处理为比例进行计算,所得结果仍然为实数解。
基于路径的使用概率分布并运用概率抽样方法进行交通分配是一种值得探索和尝试的新技术路径。例如某OD对之间存在3条路径,根据效用计算每条路径的选择概率分别为0.7819,0.2006和0.0175,表1显示了在三种出行量情形下基于概率抽样方法进行20次交通分配的结果。结果显示,出行量较小时交通分配结果的波动性较大,随着出行量增加,分配结果趋于逼近输入的概率分布。然而,现实中细颗粒度交通小区之间的出行需求通常为较小的数值,如果具体到某一个出行个体,则出行需求为单位1,基于概率抽样方法的交通分配难以达到按照比例算法所求解的结果。此外,小规模需求的概率抽样计算带来的不确定性会导致模型结果不稳定(不可重复)。相比之下,通用交通分配算法主要以均衡为收敛标准,是否符合真实交通运行状况仍有待进一步验证。因此,从比例因子到概率抽样仍是建模难点,需要进一步研究。
表1 基于概率抽样方法的交通分配结果示意

从整体重构到增量模型
1
增量模型的必要性
除了以机器学习为核心的数据驱动模型外,既有交通需求建模方法主要是基于特征种子和约束优化的总体构造方法,即利用现状调查所获得的特征种子,将交通运行总体指标作为约束条件,运用数学优化方法进行求解,构造集计或非集计的总体出行活动数据集。这种方法的特点是所有参与者均进入每一次的选择过程,也就是说模型每进行一次迭代计算,即“重新洗牌一次”,所有出行活动的时空分布、交通方式选择等都会重新计算一次。然而,真实的城市系统并非按照该逻辑运行,出行者有稳定的属性和活动。
属性的稳定性主要体现为市民具有相对稳定的居住地和工作地。图3为2019年广州市1万户家庭户主的现住宅居住时间和现岗位就业时间分布。中长期固定居住地人口比例较高,同时年龄越大自有住房比例越高且越稳定。对于就业人口而言,10年以上未更换工作的比例达27.4%,现岗位就业时间5年以上的比例高达56.8%。此外,从更换工作意愿来看(见图4),现岗位就业时间越短意愿越强,工作年限为3年的人群意愿最强;随着同一岗位连续就业时间增加,更换工作的意愿也逐渐降低。现岗位工作年限10~20年有更换工作意愿的人口比例为4.6%,20年以上有更换工作意愿的人口比例为1.2%,可见就业群体具有高度的稳定性。居住地和工作地的稳定性及迁移意愿说明城市发展是渐进和迭代演化的,构造一个局部变化的增量模型比每次计算都是全局优化的整体重构模型更符合现实规律。

图3 现住宅居住时间和现岗位就业时间分布

图4 不同工作年限人群更换工作意愿分布
2
增量模型发展与未来设想
增量模型并非新的概念,M. L. Manheim[22]提出了针对给定的固定基点开展预测的问题。H. Abraham[23]等提出了基于增量的改进四阶段模型。J. Bates 等[24]基于Kumar早期工作提出了一个嵌套增量Logit模型(Nested incremental logit model),并从数学角度展示了如何应用该模型预测方式选择的变化。英国交通部发布的《交通分析指南》(Transport Analysis Guidance)[25]也描述了增量模型,指南说明附录文档中介绍了考虑增量的多元Logit模型、双约束重力模型、复合效用模型及条件概率模型等多种模型的实现方法。总体来看,增量模型是一个以现状为基点的变化模型,核心是构造一个高质量的现状情形作为参照系。然而,多数文献和方法对于现状的构造主要是基于特征的整体重构,而基于数学优化方法难以实现城市真实出行总体的高质量建模。因此,构造城市真实出行总体成为增量模型的关键。
基于出行者活动稳定性的交通规划模型关键技术[16]依托手机信令数据挖掘出行者属性并构造城市出行总体,结合扩展人口合成模型可以实现城市人口和就业岗位从现状到未来的预测,并运用基于活动的模型开展实证研究。结果显示,该研究实现了对现状城市出行活动的高质量复刻,依托出行者属性变化推演较好地实现了交通需求预测在时间和空间上的继承和延续,这表明增量模型结构可以进一步拓展至基于活动的模型。
中国城市已经进入存量发展阶段,城市活动更加稳定,高质量的现状挖掘也在一定程度上决定了近期预测的精度以及中长期决策研判的合理性。此外,高覆盖率的手机信令、互联网LBS和道路卡口监测数据,以及高质量的交通运行监测数据(如公共交通IC卡、出租汽车GPS、网约车订单及轨迹数据等)已经广泛应用于城市流动性建模并取得了丰富的成功经验。依托这些数据基础和技术方法可以构造更高质量的基准特征年模型。可以预见,依托高质量的现状城市出行活动复刻来构建增量模型进行预测和推演,将为运行管理级的交通规划和治理提供更加精准的量化分析平台。
从有限约束收敛到先验实证
交通需求模型对数学优化求解有很强的依赖,且优化求解的约束条件一般是已知的交通运行统计及监测数据或通过抽样调查推断的总体分布。在大数据时代到来之前,求解约束条件是否完备或充分通常是未知的,这也使得满足约束条件的最优解未必是交通需求建模所需要的真实解。大数据时代带来的根本性转变是有可能充分掌握真实的运行状态指标,如准确的出行OD、活动轨迹,为更好理解基于有限约束条件的数学优化求解结果的可靠性提供了一个“上帝视角”,可以更好地反思和审视既有建模方法存在的问题并寻找改进途径。
数据驱动的分析方法[14-15]证明了基于有限约束条件的数学优化求解方法存在的问题,是一种先验视角的实证,即从真实总体的视角来研判既有方法的问题。在给定总体的前提下,先验视角的居民出行调查抽样和扩样问题仿真研究[26]运用仿真的方法对不同抽样率的居民出行调查抽样的种子特征和总体差异进行分析,并进一步对扩样结果和真实总体进行验证,探明了基于种子特征利用多属性加权扩样方法构造和还原总体的方法存在明显局限性,甚至会引入新的偏差。多属性加权扩样是小数据时代的经典方法,居民出行调查扩样也是有限约束条件求解的典型代表,实证表明大数据时代可以有新的视角。文献[8]利用仿真实验的方法针对大型和小型交通网络分别进行实证研究,结果表明,常见的路段观测点调查值和模拟值的相关分析和GEH[4]值检验并不能保证矩阵估计能够还原真实总体;研究进一步表明初始输入矩阵质量是矩阵估计技术可用性的关键。以基于重力模型构造的初始矩阵作为输入,即便在路段观测值和模拟值的拟合优度达到1的情形下,所得估计OD矩阵与真实OD矩阵也可能相去甚远。严格意义上,将基于有限约束条件的构造OD矩阵作为输入条件,矩阵估计技术几乎是失效的,而现实中矩阵估计技术又是交通需求预测领域最常用的方法。这些研究发现了通过先验的视角能够有效甄别既有交通需求模型存在的关键技术问题,同时也说明了充分挖掘现状城市出行活动的重要意义。
以上研究中发现的问题揭示了一个基本事实,即求解的收敛或稳定仅仅是对有限约束条件的优化,不能代表客观真值(现实物理世界)。长周期、大规模时空位置数据采集和分析技术的日趋成熟让我们有可能获得更加逼近真实值的现状结果,也为交通需求模型的校验提供了一个先验视角。当然,先验视角的审视和检验还可以拓展至更广泛的领域,如大规模轨迹数据对全OD的还原[27]以及基于GPS轨迹路径数据的交通分配[28]检验等环节。
总结与讨论
交通需求建模是交通科学研究的核心议题,大数据时代的到来为交通需求模型开发基础带来了革命性变化,也提出了进一步更新和创新的需求,以提高对交通系统现实发展的解释能力和对未来发展的指导能力。正如D. Boyce 等[29]提出的:“后来者应关注那些对模型的本质与用法、技术与政治挑战以及预测本身理念的批评,方法的创新源自响应问题导向、对更高精度模型的向往,抑或是发现新的思路。质疑传统的解释、模型的可信度及其预测假设、预测所固有的不确定性不可或缺,并且了解在何时、何地、为何对某一理论或方法提出的修改是有意义的”。此外,非理性选择行为[30]及不确定性[31]也会对模型结果产生巨大影响。尽管有观点认为,能够正确响应变量变化趋势的模型即为好的模型,但对于交通治理实践运用和科学研究而言,模型精度是检验模型质量的唯一和最高标准。为此,结合对交通需求模型开发和实践工作的理解,本文提出了从数学优化到因果推断、从比例因子到概率抽样、从整体重构到增量模型以及从有限约束收敛到先验实证的范式转变思考。对于技术范式审视的目的不是为了否定,而是在理解和思辨的基础上进行更好的改进和完善。
《城市交通》2024年第4期刊载文章
作者:陈先龙,张华,
马毅林,宋程,魏贺

点击“阅读原文”查看
“观点集萃”栏目更多内容

关注解锁更多精彩
2024137期
编辑 | 耿雪 张宇
审校 | 张宇
排版 | 耿雪
原文始发于微信公众号(城市交通):陈先龙∣大数据时代交通需求模型范式转变的思考