资源库

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

原文始发于微信公众号(城市数据派):城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

点击上图,了解详情




研究背景


    全世界范围内,住宅商品房价格的持续上涨给低收入人群带来巨大的购买负担,与此同时,人们居住观念的改变即对租房接受度的提高,使得租赁人口不断增加,住房需求逐渐推向租赁市场。


    近年来,政府积极鼓励并推动租赁市场的发展,一系列政策如租购同权、集体建设租赁型住房、发展长租公寓、住房补贴等陆续出台。


    大量的租房需求和政府的积极推动,给房租市场带来了机遇和挑战。如何获取实时精细的房租空间分布、如何识别房租空间差异的影响因素、如何平衡城市内部租赁差异、如何评价租购同权政策的有效性、如何指导公平住房政策的制定都是当下亟待解决的问题。

当前研究进展


01

房租数据获取方法


基于传统统计数据   如官方统计数据、调查问卷、线下房地产交易商,其存在的不足在于①制作费用昂贵、时间效益差,无法实现动态监测;②粗糙的时空分辨率、有限的样本数量,无法满足精细尺度空间格局分析要求。

基于社交媒体数据   社交媒体是指基于Web 2.0应用、由用户自己生成内容、用于改善在线社交网络发展的平台,作为其中之一的网上租赁平台为房地产研究带来①免费公开可获、实时更新;②地理属性精细丰富;③反映真实市场情况的有效数据源。

但仍无法提供楼栋、小区、街道等精细尺度的全覆盖数据样本。


02

房租数据的空间预测方法


    学者们对于房租房价的预测方法进行了不断的选择与改进:

特征价格模型——房地产研究常用的经典模型,但无法解决空间自相关和空间异质性问题;

克里金插值——对数据要求严格,实际应用较少;

地理加权回归——无法解决多尺度多维度问题;

空间计量模型——高度依赖先验知识,简单假设房租与影响因子间的关系;

机器学习——无需数据分布和先验假设,能捕捉多尺度相互作用和非线性关联,能建立复杂结构模型处理多维数据,但无理论支撑。

总结:当前缺少机器学习算法与房租理论模型的结合。



03

房租影响因子



<基于理论模型的选择>

基于特征价格模型,从邻里、区位、结构三个特征选择因子:

(1)邻里特征:教育设施、医疗设施、开放空间、便利设施、就业机会;

(2)区位特征:交通、距CBD距离;

(3)结构特征:房屋结构、朝向、装修程度、小区环境。


<多尺度效应的探究>

衡量某一特定类别房租影响因素的常用方法:

(1)居住点距最近设施点的距离;

(2)居住点周围最近设施点的大小、等级、质量;

(3)居住点特定距离内所包含的设施点数量;

(4)居住点所属邻里范围内设施点密度。

探究房租影响机制的常用技术:

(1)相对重要性比较;

(2)边际效应可视化。


总结:当前缺少多尺度影响因素及其相对重要性的探究。


研究框架

    下图呈现的方法框架包括5步:从网上租赁平台获取房租价格数据,基于特征价格模型多尺度选择因子,比较六种常用的机器学习算法性能并选择最优算法进行空间预测,比较决定因素的相对重要性,分析小区尺度房租时空格局。

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

研究目标


(1)阐述如何基于泛在空间数据,使用机器学习算法结合特征价格模型,绘制精细尺度房租空间分布;

(2)比较不同机器学习算法的预测性能;

(3)定量分析影响因子在多维多尺度上的相对重要性;

(4)探讨对于公平性住房政策的启示与应用。


研究区

深圳,中国第一经济特区。截止2017年,常住非户籍人口占比65%,50%以上人口选择租房,住宅区存在显著的地理隔离。

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

数据处理


(1)从安居客、搜房网、链家、赶集网、58同城上爬取2017年10月和2018年2月的房屋租赁清单;

(2)数据清洗,去除重复发布的、面积明显异常的、缺少重要信息的记录,处理异常值;

(3)计算每个小区的平均单位面积房租;

(4)与深圳市小区矢量电子地图匹配。


研究指标

基于邻里、区位、建筑结构三个特征选取了7个维度的房租影响因素,并计算了小区1000米范围内对于每个类别POI的个数,街道尺度POI密度,和距最近POI距离。


城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

房租空间预测


    为对比不同类型机器学习算法的预测效果,分别基于树、基于距离、基于神经网络选取了6个常用算法,分别为随机森林回归(RFR),额外树回归(ETR),梯度提升树回归(GBR),支持向量机回归(SVR),k-近邻算法(k-NN)和多层感知器神经网络(MLP-NN)。RFR,ETR,GBR是基于集成树的回归算法,它汇总数据集的各个子样本上的多个回归树,并使用平均值来提高预测准确度,从而控制过度拟合。RFR相比于ETR,增加了方差但减少了偏差;MLP-NN是一种前向结构人工神经网络,具有速度快、泛化能力强、自学习能力强的特点;SVR通过寻找最优回归平面来预测未知点的值,该最优平面使得所有数据点距离该平面的距离和最小,即找到距离所有点距离最近的平面;k-NN基于有限的附近样本来解决预测问题,并且更适合于具有大量交叉或重叠的数据集。6个算法基于scikit-learn, Python包实现。利用格网搜索最优参数,通过K折交叉验证计算R2、精度等,对比选出最优预测性能的机器学习算法。


结果提要


算法性能比较


2017年10月机器学习算法性能比较

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派


2018年2月机器学习算法性能比较

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派


表中可以看出,RFR、ETR分别在2017年10月和2018年2月的房租预测中效果最佳,因此选择RFR,ETR进行房租空间预测。


房租时空格局


    深圳市4个月以来平均房租增长6.659元每平方米,其中光明新区涨幅最大,房租价格从主城区向郊区递减,但涨幅从主城区和郊区向城乡结合地区递减。


深圳各区预测房租统计表

城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派
城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派


房租影响因素分析


(1)距三甲医院近的小区房租较高;

(2)拥有多样的就业机会或高新产业聚集的街道房租较高;

(3)对于教育而言,不同教育类型影响不同,义务教育和大学影响较大;

(4)自然景观越来越受到租房者的重视,距海岸线距离影响较大;

(5)公共交通便利度相对就医、就业而言影响较小;

(6)影响因子的多尺度效应显著,每个影响因子决定房租价格的尺度不同,总体而言尺度影响从大到小依次: 街道范围可获性>最近距离可达性>15分钟步行可获性。


城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

2017年10月房租的决定因子相对重要性排序图


城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

2018年2月房租的决定因子相对重要性排序图


对于公平性住房政策的启示


(1)精细尺度的房租时空格局能为租房者提供参考,同时了解租金价格变化的模式和动态及其与环境、基础设施和社会收益机会等的关系,可对城市规划进行指导;

(2)提出的方法框架可作为相关部门房租监测平台搭建的参考;

(3)基于文章结果与当前已有政策的讨论,为公平性住房政策的制定提出几点建议。


参考文献:

Lirong Hu, Shenjing He, Zixuan Han, He Xiao, Shiliang Su, Min Weng, Zhongliang Cai. Monitoring housing rental prices based on social media:An integrated approach of machine-learning algorithms and hedonic modeling to inform equitable housing policies. Land Use Policy2019, 82: 657-673.


文章转载来源于公众号:武大城市化研究室



END.



| 往期精选 |


城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

点击上图,了解详情


城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派

点击上图,了解详情



| 其他合作 |

商业合作、投稿等,请联系客服小派派微信号 xiaopaipai_udparty,加好友必须备注:合作+机构名称


城市房租动态监测:机器学习整合特征价格模型的框架丨城市数据派


分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址