规划问道

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派


年终数据技能大冲刺开车啦!

同时报名还可享更多优惠:

任选2套同报,钜惠价再减200元!

任选3套同报,钜惠价再减360元!

任选4套同报,钜惠价再减520元!

任选5套同报,钜惠价再减650元!

(多套同报优惠到1月30日截止,

以上优惠不包括营13)

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

加我获取每套课程详细介绍
加我咨询和报名课程
【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派




【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派


基于NSFC中欧国际合作项目的延伸,我团队与UCL团队继续合作,在期刊Applied Geography上发表论文:Income estimation based on human mobility patterns and machine learning models 第一作者为高琦丽博士(深圳南特金融科技学院 助理教授),通讯作者为钟晨博士(英国伦敦大学学院副教授)。



文章亮点

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

  • 内容上,探究了大规模人类移动数据和机器学习技术在实现收入精确估算中的应用潜力。

  • 方法上,应用了多种针对人类移动模式的表征方法和模型,并验证了其有效性和性能。

  • 结论上,通过可解释机器学习方法发现基于收入的居住分异显著性高于活动空间差异。



研究设计和方法

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

在社会研究、城市政策和交通管理中获取社会经济地位(SES)信息具有重要意义,可用于减少贫困和促进社会融合。近年来,研究人员已意识到需要高粒度、时效快的数据来源和创新方法来精确识别需要政策干预的地区。该研究尝试使用大规模细粒度人类移动数据和机器学习方法,探究其在收入精细估计中的应用潜力。同时,通过使用可解释机器学习方法 (SHAP) 识别影响收入估计的重要性指标,解读人们日常活动行为分异的影响机制。


本研究以深圳市为例,基于公共交通智能卡数据,在公共交通站点一公里辐射范围尺度(1-km transit station catchment area)上开展实证分析。首先,设计了三种表征人类移动行为的三种方式:多维度(活动强度、活动范围、活动多样性、空间位置、时间韵律、出行效率)移动性统计指标(Mobility indicators)、动态活动足迹(Activity footprints)、时空出行图(Travel graphs)。收入特征使用高低收入比(High-Low Ratio)和收入差异性指数 (Dissimilarity Index)衡量。针对不同的移动行为表征方式,应用不同的机器学习模型构建人类移动行为与收入之间的关联。同时,为验证人类活动地环境特征对于收入的影响,模型中同样引入了居住地的交通可达性、人口和土地利用特征。整体研究设计和方法如下图。


【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

图1. 研究方案设计和方法



研究结果

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

本研究采用R²和MSE作为模型评价结果。不同模型的回归结果列于下表。


表1. 回归模型和结果

【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派


基于良好定义的结构化特征,XGB模型作为基于树的集成模型,展现出了相当可观的预测能力,能有效地处理变量间复杂的相互作用。值得注意的是,动态活动足迹在捕捉时空模式和收入状况之间的联系方面,无需依赖领域知识或特征工程,显示出更高的有效性。然而,与离散的活动足迹相比,基于图形的深度学习模型通过捕获活动地点之间的空间相互作用,在预测任务中展现出了最高的潜力。这些结果强调了先进机器学习技术和人类移动特征在绘制收入分布图方面的功效。此外,它们凸显了一个观点:在描述移动模式时保留更多信息可以提高预测收入属性的准确性。


尽管在这项研究中发现收入状况和移动性高度相关,但与收入状况密切相关的移动性指标仍未充分探索。可解释的人工智能技术使我们能够了解特征的重要性,以及如何影响回归模型决策和预测。基于SHAP技术的特征重要性如下图。


【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派
图2.  高低收入比和差异性指数的特征重要性

对于收入状况的两个衡量标准,特征重要性的排名基本保持一致。最重要的特征是排名第一的常访问站点的空间位置,这基本上反映了居住地的选择。纬度的正向影响和经度的负向影响与深圳的城市结构相呼应。

在空间位置特征之后,用于描述居住地背景的所有属性对模型输出都具有重要意义。结果表明,高收入用户比例较高的地区往往拥有更好的交通可达性、较低的人口密度和多样化的土地利用。相反,低收入人口占主导地位的地区因为缺乏地铁系统,人们出行更可能依赖公交系统,从而表明了在获取城市设施和机会方面的收入不平等情况。

在活动范围的维度方面,低收入公共交通用户比例较高的地区呈现较大的平均出行距离。这一发现与居住模式一致,即财富较高的个人倾向于居住在靠近城市中心和交通可达性较好的地区。因此,在利用公共交通时,这些个人的日常活动出行距离较短。出行效率(速度)与收入指标之间的负相关关系与更好的交通可达性(例如地铁的可用性)相对应,而这种情况在高收入公共交通用户中更为普遍。

在时间韵律方面,特定时间段的出行频率,即6:00–8:00、6:00–8:00和16:00–18:00,在预测收入状况方面起着重要作用。平均而言,居住在低收入地区的公共交通用户出行更早,回家更晚。

在活动强度方面,低收入地区的公共交通用户更倾向于参与常规活动,而较少参与随机活动。后者类别的活动更可能与休闲等非必要活动相关。用于衡量活动多样性的指标最不重要,这与其他研究(例如新加坡和波士顿)的结果一致。这些研究表明,收入状况在决定居住选择方面(包括居住地位置及其社会经济背景)比其他本文检测的移动性指标更为重要。从社会不平等的角度来看,这意味着居住差异可能比基于移动性的差异更为显著。


总结
【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派
利用大规模的时空数据集和数据分析技术已成为应对可持续城市发展挑战的一种有效解决路径。人类活动与社会经济地位之间的潜在关联和先进的人工智能技术为精细和及时的社会经济监测提供了的解决思路,从而助力缓解贫困。通过在深圳这个特大城市进行的实证研究,我们验证了我们提出的框架和模型在实现精确收入估计方面的有效性。这种替代性解决方案为快速发展的城市提供了一种可行选择。除此之外,本研究还通过利用可解释的人工智能技术分析特征重要性来阐明社会空间不平等问题,进而为实现城市可持续发展目标提供了更深入的见解。

欢迎扫码查看原文
【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

本文转载自:Urban Informatics

最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~



原文始发于微信公众号(城市数据派):【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派

赞(0)