年终数据技能大冲刺开车啦!
同时报名还可享更多优惠:
任选2套同报,钜惠价再减200元!
任选3套同报,钜惠价再减360元!
任选4套同报,钜惠价再减520元!
任选5套同报,钜惠价再减650元!
(多套同报优惠到1月30日截止,
以上优惠不包括营13)

基于NSFC中欧国际合作项目的延伸,我团队与UCL团队继续合作,在期刊Applied Geography上发表论文:Income estimation based on human mobility patterns and machine learning models 第一作者为高琦丽博士(深圳南特金融科技学院 助理教授),通讯作者为钟晨博士(英国伦敦大学学院副教授)。
文章亮点
-
内容上,探究了大规模人类移动数据和机器学习技术在实现收入精确估算中的应用潜力。
-
方法上,应用了多种针对人类移动模式的表征方法和模型,并验证了其有效性和性能。
-
结论上,通过可解释机器学习方法发现基于收入的居住分异显著性高于活动空间差异。
研究设计和方法
在社会研究、城市政策和交通管理中获取社会经济地位(SES)信息具有重要意义,可用于减少贫困和促进社会融合。近年来,研究人员已意识到需要高粒度、时效快的数据来源和创新方法来精确识别需要政策干预的地区。该研究尝试使用大规模细粒度人类移动数据和机器学习方法,探究其在收入精细估计中的应用潜力。同时,通过使用可解释机器学习方法 (SHAP) 识别影响收入估计的重要性指标,解读人们日常活动行为分异的影响机制。
本研究以深圳市为例,基于公共交通智能卡数据,在公共交通站点一公里辐射范围尺度(1-km transit station catchment area)上开展实证分析。首先,设计了三种表征人类移动行为的三种方式:多维度(活动强度、活动范围、活动多样性、空间位置、时间韵律、出行效率)移动性统计指标(Mobility indicators)、动态活动足迹(Activity footprints)、时空出行图(Travel graphs)。收入特征使用高低收入比(High-Low Ratio)和收入差异性指数 (Dissimilarity Index)衡量。针对不同的移动行为表征方式,应用不同的机器学习模型构建人类移动行为与收入之间的关联。同时,为验证人类活动地环境特征对于收入的影响,模型中同样引入了居住地的交通可达性、人口和土地利用特征。整体研究设计和方法如下图。
图1. 研究方案设计和方法
研究结果
本研究采用R²和MSE作为模型评价结果。不同模型的回归结果列于下表。
表1. 回归模型和结果
基于良好定义的结构化特征,XGB模型作为基于树的集成模型,展现出了相当可观的预测能力,能有效地处理变量间复杂的相互作用。值得注意的是,动态活动足迹在捕捉时空模式和收入状况之间的联系方面,无需依赖领域知识或特征工程,显示出更高的有效性。然而,与离散的活动足迹相比,基于图形的深度学习模型通过捕获活动地点之间的空间相互作用,在预测任务中展现出了最高的潜力。这些结果强调了先进机器学习技术和人类移动特征在绘制收入分布图方面的功效。此外,它们凸显了一个观点:在描述移动模式时保留更多信息可以提高预测收入属性的准确性。
尽管在这项研究中发现收入状况和移动性高度相关,但与收入状况密切相关的移动性指标仍未充分探索。可解释的人工智能技术使我们能够了解特征的重要性,以及如何影响回归模型决策和预测。基于SHAP技术的特征重要性如下图。



原文始发于微信公众号(城市数据派):【论文推荐】基于人类移动大数据和机器学习的收入估计及社会均等性研究丨城市数据派