规划问道

【学术动态】利用众包数据和可解释性机器学习探索绿色空间对积极出行的非线性和协同效应 | 2024年第6期

本刊“学术动态(Planning Reviews)”栏目,推介国内外学术书籍和文献报告、关注国际研究动态和前沿热点、分享规划案例研究。本期“城市规划技术与方法”专栏,向大家推介一篇应用机器学习技术研究绿地与出行之间关系的文献。


(专栏编辑:肖扬,同济大学建筑与城市规划学院长聘教授

利用众包数据和可解释性机器学习探索绿色空间对积极出行的非线性和协同效应

来源:YANG L, YANG H, YU B, et al. Exploring non-linear and synergistic effects of green spaces on active travel using crowdsourced data and interpretable machine learning[J]. Travel Behaviour and Society,2024, 34, 100673.

积极出行作为绿色交通的一部分,被广泛定义为“通过持续的体力消耗直接作用于人运动的出行”,通常包括步行、跑步、骑行和游泳。在一个久坐生活方式盛行的时代,促进积极出行已成为提高个人和环境福祉的重要途径。大量研究表明,建成环境中的绿地,如公园、森林和街道绿化,可以促进积极出行。大多数研究假设绿色空间与积极出行之间存在一种预定关系(如广义线性关系)。然而,由于同伴效应和旅行效用,绿色空间与积极出行之间的相互作用可能是非线性的。虽然最近的研究确实通过应用机器学习模型确认了绿地与积极出行之间存在非线性关联,但他们通常使用黑箱模型。这些模式不能对全局和局部两级的结果提供全面的解释。此外,以往的研究很少深入到影响积极出行的变量之间的局部交互作用。因此,现在有必要研究绿色空间对积极出行的非线性和协同效应。

为了解决上述问题,本研究使用多源数据,包括公开可获取的积极出行数据(即202112月抓取的Strava数据) 和百度街景(BSV) 图像,利用机器学习技术(随机森林和SHAP模型),研究了成都绿地对骑行和跑步活动的非线性和协同效应。值得注意的是,本研究所采用的绿色空间变量是从两个角度测量的:俯视和人眼视角。本研究的贡献主要体现在四个方面:①将新兴的众包数据用于积极出行研究;②识别两种类型的绿地与两种类型的积极出行之间的关联;③应用可解释性机器学习来探索非线性和阈值关联;④分析绿色空间对两种积极出行结果影响的异同。

本研究使用随机森林模型和SHAP模型揭示绿色空间对积极出行的复杂影响。随机森林是集成学习中Bagging算法的一个典型代表,它是由CART决策树作为基学习器组合而成的一种集成算法。随机森林算法结合了决策树的简单性和灵活性,单棵树只使用了样本和预测变量的子集,使方差降低,对噪声和异常值具有鲁棒性,从而提高了模型的稳定性和准确性。

SHAP模型是基于博弈论和局部解释两种理论开发而来,对于每个预测样本,模型都能产生一个预测值,并通过计算在多次预测中各个特征对模型输出的边际贡献而得到每个特征的贡献程度,即Shapley值。该值可以生成特征的相对重要性,反映特征对模型性能的影响大小,其相对重要性越高,表示对随机森林中的关键决策贡献越大。SHAP偏依赖图和交互图能够提供单个自变量与因变量之间复杂的非线性关系以及交互作用。

1) 骑行方面

研究发现,道路密度对骑行的影响最大。此外,两个绿色空间能够预测大约20%的骑行变化。绿视率在影响骑行行为的变量中,其相对重要性排名第二,仅次于道路密度。这一结果支持了绿色空间在影响居民积极出行中至关重要的观点。绿地面积的局部依赖图,显示了其对骑行的主要影响。当绿地面积z值在0-3范围内时,与骑行呈正相关。当绿地面积z值大于3时,与骑行呈负相关,表明绿地面积过大可能会阻碍骑行。绿视率的局部依赖图显示当绿视率较低时,与骑行呈正相关。然而,一旦绿视率达到一定程度,它对骑行产生的效果转变为负。

此外,本研究利用SHAP模型计算了两个绿色空间变量与所有控制变量的局部交互效应,并确定了与绿色空间变量交互效应最大的控制变量。一方面,土地利用混合度与绿地面积的交互作用最大。本研究观察到,当土地利用混合度较低时,SHAP相互作用值随着绿地面积的增加而增加。另一方面,公交站点数量与绿视率的交互作用最大。当公交站点数约为1,绿视率小于0.3时,这两个变量具有协同效应。

2) 跑步方面

土地利用混合度排序是对跑步影响最大的预测变量。两个绿地变量,即绿地面积和绿视率,分别排在第二位和第六位。绿地面积和绿视率的局部依赖图中,都观察到SHAP值的上升趋势。由此可见,这两个变量对跑步均有正向影响。当绿地面积或绿视率很小时,SHAP值为负,这表明绿地的缺乏抑制了跑步活动。当绿地面积z值超过– 0.4,绿地景观指数z值超过– 0.4时,SHAP值变为正值。

此外,SHAP模型结果显示绿地面积与住宅建筑密度存在交互作用。当住宅建筑密度(z值) 小于0.25时,绿地面积与变量之间产生协同效应。绿视率与河岸线长度之间存在局部相互作用。当河岸线长度z值大于1.5,绿视率z值大于0.2时,协同效应随绿视率的增加而增加。

本研究使用多源数据和可解释性机器学习技术来检验这些非线性和协同效应。与之前的大多数研究不同,本研究从两个角度来评估绿地:俯视和人眼视角。结果表明:① 绿地对积极出行方差的解释约为20%;②绿地面积对积极出行的影响总体为正,但在一定程度上变为边际甚至负影响;③绿视率对骑行和跑步的影响不同;④绿视率对跑步的影响与绿地面积的影响相似,但对骑行的影响较为复杂,经常出现负影响。可能是由于碰撞风险等因素未被模型捕获,并且⑤预测因子之间存在协同效应。

本研究具有重要的现实意义。首先,它表明简单地增加或减少一个或一组建成环境变量可能不是最有效的方法。相反,将这些变量保持在特定范围内可能更有益。这有助于优化资源分配。第二,本研究确定的协同效应表明调整一组建成环境变量(如绿地面积与土地利用混合度、绿地景观指数与公交车站数量、绿地面积与住宅建筑密度、绿地景观指数与河岸线线长度) 可能比改善单个变量更有效地促进积极出行。第三,道路密度对骑行的影响最大,直接影响骑行条件和安全。第四,研究揭示了建成环境对骑行和跑步的不同影响。例如,增加人眼视角的绿化对促进跑步有效,但对鼓励骑行可能没有那么有效。因此,建议采取有针对性的干预措施,促进不同类型的积极出行。最后,必须谨慎看待绿地的过度增加,因为它们可能有副作用。因此,将其提高到特定的水平是最适宜的。


(供稿:肖扬,同济大学建筑与城市规划学院长聘教授)



【学术动态】利用众包数据和可解释性机器学习探索绿色空间对积极出行的非线性和协同效应 | 2024年第6期


原文始发于微信公众号(城市规划学刊upforum):【学术动态】利用众包数据和可解释性机器学习探索绿色空间对积极出行的非线性和协同效应 | 2024年第6期

赞(0)