规划问道

多源大数据探索:什么样的房产更有升值空间?丨城市数据派



01



内容导读


理解和对城市房价升值率(house price appreciation rate)建模既有益于购房者选择合适的房产,也能帮助研究人员与城市决策者制定房产相关的政策。先前已经有大量城市经济学、地理信息科学、计算机等领域的工作尝试对房价建模与预测,并取得了一系列成果和应用,然而之前的研究仍然在以下两方面存在一定的缺失。


首先,早期大多数研究关注于房价本身,而非升值率;前者反映了房产在某个特定时间的价值,而后者则描述了房产的长期价值,影响房价绝对值和升值率的因素可能不同。


其次,先前研究大多基于特征价格模型(Hedonic Pricing Model),主要从结构特征(Structural Attributes)和区域便利性(Locational Amenities)两方面入手。其中,结构特征主要指的是房子本身的属性(如面积,楼层,房间数等),而区域便利性则指的是周边生活设施便利度(如房产与服务设施的距离等)。


然而,除了这两方面因素,房产的价值可能还与房子周围的物理视觉环境与社会环境相关联,例如,风景优美的小区房产价值可能更高,人流熙攘的区域住宅升值空间可能更高。由于缺乏量化城市环境品质和人流的相关数据,先前的研究可能难以量化地分析这些重要因素对于房产价值的影响。


基于此,本研究提出了一种融合多源地理大数据的框架来建模和分析房产增值率。具体而言,我们收集了四方面的数据:

(1)基于志愿者地理信息(VGI)的在线房价数据平台获取了房产信息和房产照片;

(2)通过街景数据和兴趣点(POI)数据描绘房产周围的建成环境;

(3)通过人流量信息和车流量信息刻画房产所在区域的吸引力——“人气” ;

(4)以及房产周围的社会经济属性。我们以美国波士顿地区(Greater Boston Area)作为研究区域,使用了回归分析和机器学习的方法,分别从两个尺度——房屋尺度和街区尺度,来探究影响房产升值的因素。



02



研究框架


研究框架分为以下步骤:数据采集,特征构建,模型训练,以及制图与分析


流程图如图1所示。为了进行多源数据融合,我们采集了四方面数据并分别从房屋尺度和街区尺度构建了特征。


多源大数据探索:什么样的房产更有升值空间?丨城市数据派

图 1 实验框架:(A)数据采集;(B)特征构建;(C)模型训练;(D)制图与分析


具体而言,对于房产信息,我们从美国房产中介公司REDFIN的网站上下载了大波士顿地区2014-2019年的房产和房价信息(图 2(A)),其中房产信息包括了房屋面积,房间数,建成时间等;同时,我们也下载了房主上传的房屋照片,并使用了ResNet深度卷积神经网络提取了高维度视觉语义特征向量来表达房屋环境(图 2(B))。我们还计算了房产价值2019年相较于2014年的增值作为升值率。


对于建成环境特征,我们一方面下载了街景数据,使用ResNet卷积神经网络提取图片的特征向量来表达城市建成环境(图 2(C));另一方面我们通过SafeGraph的POI兴趣点数据库计算了房屋附近的服务设施数量与距离以描述周边环境的生活便利度。


对于人口流动情况,我们分别使用了SafeGraph的兴趣点访问频率和Uber Movement交通时间数据集来分别刻画一个地区的人流量和交通通达性。


此外,我们还从美国统计局获取了每个房屋所在街区的社会经济属性,包括收入,种族比例,失业率等。

多源大数据探索:什么样的房产更有升值空间?丨城市数据派

图 2 (A) 房屋空间分布;(B)街景图片案例;(C)房屋图片案例


多源大数据探索:什么样的房产更有升值空间?丨城市数据派

图 3 大波士顿地区街区尺度下数据空间分布:

(A)房屋升值率;(B)房屋价格绝对值(取对数);(C)房屋价格(每平方米); (D) 访问人数(数据来源: SafeGraph);(E)平均出行时间(数据来源: Uber Movement);(F) 波士顿各街区人口数


03



实验与结果


为了建模房价升值率,一方面,我们将本研究所提出的多源数据融合框架,与传统的特征价格模型(只包括结构特征和周边设施两方面)进行比较,探究了多源数据融合是否能够更好地建模和表达房价升值率;另一方面,我们分别从房屋尺度与街区尺度建立了模型。


对于购房者而言,由于他们关注于微观尺度下个体房屋的升值率,以及模型预测的准确度——准确度越高则购房者更满意。因此,在房屋尺度下,我们使用了一种机器学习的方法——Gradient Boosting Machine(GBM)来预测房价的升值率,同时与线性回归的结果作为基准进行了对比。


而对于研究人员而言,了解宏观的房价升值率空间分布,并探究和分析其背后的原因有助于决策制定,故本研究在街区尺度使用了地理加权回归(GWR)并与线性回归的结果进行了对比。此外,本研究还分别探究了不同尺度下不同决定因子对于模型的影响程度,从而了解了房价升值率的影响因子。


实验结果表明:

(1) 无论在房屋尺度,还是在街区尺度,相比于传统的特征价格模型,使用多源数据的模型提高了预测精度,从而可以更好地建模房屋升值率,帮助我们更好地理解房价;


(2) 在房屋尺度,使用机器学习可以更好地预测房屋的增值率;在街区尺度,使用地理加权回归模型GWR可以更好地对空间异质性建模。


(3) 就影响房价升值率的因素而言,除了传统特征模型中的结构特征与周边设施要素之外,本研究还发现了一些新的影响因子。比如,房价绝对值对于房价的增值率影响最大(图 4);通过街景图片提取的高维度视觉要素可以表征房屋附近的环境,同时也对房屋的增值率起到了较大的作用(图 4,图 5)。这说明,建模房产周边环境对于房屋升值率的研究中具有重要意义,本研究的框架提供了新的视角和方法。


为了进一步探究房价绝对值与房价增值率之间的关系,我们采用双对数拟合了两者之间的关系(图 6)。结果发现,高房价并不意味着高房价增值率,反而呈现了负相关;这可能是因为高房价的房产升值空间(比例)较小,而房价较低的房子总体升值空间(比例)较高。此外,社区内的各种族比例可能对于房价升值率也有一定的影响。


总体而言,房价绝对值与房产升值率的影响因素存在异同,不能一概而论。对于城市的可持续性发展而言,理解和建模房价升值率有助于规划城市的发展和住房政策。

多源大数据探索:什么样的房产更有升值空间?丨城市数据派

图 4 GBM模型中各影响因子的贡献值


多源大数据探索:什么样的房产更有升值空间?丨城市数据派

图 5 相关性分析结果:

各影响因子与房价升值率间关系


多源大数据探索:什么样的房产更有升值空间?丨城市数据派

图 6 房价绝对值与房产升值率之间的关系



04



结果与讨论


本研究提出了一种融合多源地理大数据来分析房产增值率的框架。我们从街景图片与房子照片中提取了高维度视觉向量来表征房屋的环境。研究发现,影响房价绝对值与房产升值率的因素可能不同。本研究展示了房产价值的动态变化及影响因素,有益于房产政策的制定。同时,本研究将多源地理大数据和机器学习的方法与政策有机结合,为社会科学提供了新的视角、方法和技术。


本研究的不足如下,第一,研究区域仅限于大波士顿地区,未来将分析多城市的情况以得出更为普遍性的结论;第二,部分数据为VGI,存在一定的有偏性;第三,本研究的时间范围跨度为5年,但是一些数据源采用的是静态的数据,而城市环境可能会有一定的变化,故存在潜在的误差。








作者简介

康雨豪

美国威斯康星大学麦迪逊分校地理系M.S/Ph.D学生,空间数据科学实验室(GeoDS@UW)成员。 

2018年取得武汉大学理学学士学位;2019年夏在麻省理工学院MIT Senseable City Lab访问;2018年夏在摩拜单车算法组实习;2017年夏在北京大学遥感所时空社会感知实验室S³-Lab访问。



引用

Kang, Y., Zhang, F., Peng, W., Gao, S., Rao, J., Duarte, F., & Ratti, C. (2020). Understanding house price appreciation using multi-source big geo-data and machine learning. Land Use Policy, https://doi.org/10.1016/j.landusepol.2020.104919.



最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~

 更多服务 

多源大数据探索:什么样的房产更有升值空间?丨城市数据派
多源大数据探索:什么样的房产更有升值空间?丨城市数据派
多源大数据探索:什么样的房产更有升值空间?丨城市数据派
多源大数据探索:什么样的房产更有升值空间?丨城市数据派

多源大数据探索:什么样的房产更有升值空间?丨城市数据派

原文始发于微信公众号(城市数据派):多源大数据探索:什么样的房产更有升值空间?丨城市数据派

赞(0)