
【本期看点】
现在城市规划和GIS行业各种研究都亟需实时人口数据,而且越精确越好。但是目前能够获取的只有2010年第六次人口普查数据,最小尺度也是街道乡镇级别,远远无法满足目前的研究需要。本文以南京市江宁区秣陵街道为例,基于腾讯位置大数据,同时结合人口统计数据、建筑物空间属性数据和住宅小区边界数据,提出了基于腾讯位置大数据的人口空间化方法和住宅小区级别的精细尺度人口估算方法。
相较于传统的常住人口数据统计方法,该模型具有以下优点:
(1)该模型降低了人口数据获取的难度,且一定程度上提升了自动化水平;
(2)由于腾讯位置大数据是实时更新,所以利用该模型能实时反映城市人口分布变化情况;
(3)该方法估算出的住宅小区级人口和实地调查小区人口线性拟合R2为0.9494,估算结果可信度较高。

作者:吴中元
熟悉GIS专业相关知识
目前致力于地理大数据挖掘
随着GIS技术的蓬勃发展,精细尺度的人口空间化研究成为当前GIS领域研究热点。已有的人口空间化方法大多针对区域或者城市尺度进行研究,少有对街道、社区甚至住宅小区这样的亚城市单元人口进行研究。本文以南京市江宁区秣陵街道为例,基于腾讯位置大数据,同时结合人口统计数据、建筑物空间属性数据和住宅小区边界数据,提出了基于腾讯位置大数据的人口空间化方法和住宅小区级别的精细尺度人口估算方法。研究结果表明,该方法在住宅小区空间尺度下的估算结果与实际人口的线性拟合R2达到0.9494,估算结果可信度较高,可以为今后精细尺度人口空间化研究提供一定的参考价值。
长期以来,人口估算研究大多以区域或城市为基本地理单元,政府发布的人口普查数据一般以行政区为统计单元[1],但以行政单元为边界的统计人口数据存在尺度较大、耗费人力物力和周期较长等缺点。随着经济社会的发展,越来越多的亚城市单元以及城市内部的社会问题不断出现,人们对人口空间分布精细化表达的需求正逐渐增加,因此精细尺度人口空间化逐渐成为地理学方面的研究热点[2]。人口空间化指人口统计数据与其他影响人口分布因素相结合,以影响因素为自变量,以统计人口数据为因变量建立多元回归模型,实现区域统计人口在格网或其他边界内的分配[3]。传统人口空间化方法一般是以土地利用类型、居住单元建筑面积和居住单元建筑层数等数据作为自变量,以统计人口数作为因变量,建立人口估算模型[4~5]。但这些研究多针对较大空间尺度上的人口进行估算,对亚城市单元特别是小区级别的人口估算还不够成熟。
随着互联网的发展,越来越多的人使用手机地图定位服务来满足日常生活需求,如微信、QQ和腾讯地图等腾讯位置大数据。世界各地每天将产生数以千亿级的用户位置数据,这些数据能较为准确的反映用户使用地图定位服务的时间、地点和定位次数等。目前基于腾讯位置大数据的研究成果如下:卢佳[6]利用腾讯位置大数据分析了我国四大典型城市群的空间联系格局特征;王贤文[7]使用腾讯人口流动大数据研究了京津冀短期人口迁移的趋势;于丙辰[8]基于腾讯区域热力图庐山风景区位置定位数据对庐山风景区客流进行了研究,发现腾讯位置数据与人流量之间存在相关关系。
为了迎合当前社会经济发展趋势,紧跟社会地理学研究的步伐,利用新的社交网络数据来进行城市内部精细尺度的人口空间化研究具有十分重要的意义。因此,本文提出基于腾讯位置大数据进行精细尺度人口估算的研究方法,即先利用腾讯位置大数据与人口统计数据之间的相关关系建立数学模型,从而获得较小尺度的人口格网,再建立居住空间属性和人口格网的数学模型,来获得格网内部小区级别的估算人口。旨在通过引入新数据和新视角,实现对亚城市单元尤其是基于小区级别人口估算方法的突破。
南京市是江苏省省会,国务院批复确定的中国东部地区重要的中心城市、全国重要的科研教育基地和综合交通枢纽,经济发达。南京市下辖11个区县,常住人口超过800万人,全市平均人口密度超过1000人/平方公里。秣陵街道位于南京市江宁区中部(图1),是江宁区的主城区、核心区和经济中心,面积185.3km2,常住人口18.2万人,下辖21个社区、4个村[9]。街道内经济发展较为迅速,经济水平在全市排名前十,但存在局部发展不平衡的现象。街道北部经济发达,人口较多,南部经济发展较为缓慢,人口较少。秣陵街道人口分布差异较大,兼顾了人口稠密和稀疏两种情况,针对这样的街道进行研究更有代表意义。

▲图1:研究区行政区划图
Fig.1 Administrative division map of research area
位置服务(LBS)是指网络运营商通过外部定位方式获取使用者的位置信息。随着社交网络的快速发展,LBS技术逐渐得到推广和应用,腾讯位置服务便是LBS的典型应用之一。目前已有诸多产品调用了腾讯的位置服务,如QQ、微信、腾讯地图和美团打车等。每当用户使用一次腾讯产品的定位服务,比如用QQ或微信发送一次我的位置、使用一次美团打车或腾讯地图,用户位置的定位数据就会产生一次,由此产生腾讯位置大数据。目前腾讯位置大数据日均获取全球定位次数已超550亿,覆盖人数超过8亿,覆盖率70%以上,且每隔一秒全球范围内便会更新一次定位数据。腾讯位置大数据具有用户量多、时空分辨率高且与人们生活息息相关等优势,因此被越来越多地应用于城市间人口流动研究、城市空间联系模式研究和人口分布研究中。
腾讯位置大数据采集网址为https://heat.qq.com,本文利用Python爬虫技术采集了南京市2016年1月15日至25日的腾讯位置大数据,数据行数总计约30亿行,共有四个字段,分别为时间、纬度、经度以及定位次数,数据精度为1km*1km。根据当地居民生活习惯,白天在家中的人群占比较少,所以为了提高估算小区人口数量的精确性,本文利用Pandas库筛选出晚上九点到凌晨12点的用户定位数据。
本文所需的辅助数据包括南京市行政边界数据、南京市街道级行政边界数据、秣陵街道社区边界数据、秣陵街道住宅小区边界数据、秣陵街道住宅小区内建筑物底面矢量数据、建筑物楼层层数数据和南京市街道级常住人口数据。其中南京市和南京市街道级行政边界数据、秣陵街道住宅小区内建筑物底面矢量数据、建筑物楼层层数数据和秣陵街道社区边界数据由南京市国土资源局提供;秣陵街道小区边界数据是利用Python爬虫技术对高德地图进行数据抓取;南京市街道级常住人口数据则是由南京市各街道社区2016年度统计年鉴获得。
2.1 格网尺度人口空间化模型构建
本小节利用腾讯位置大数据与行政区统计人口数据之间的相关关系建立数学模型,从而实现由行政区到1km*1km格网的人口空间化。目前国内外研究人口空间化的方法大都是使用统计模型法,其基本思路是利用和人口分布相关的影响因子与统计人口数据之间的关系建立数学模型,通过将这些已知因子引入模型从而完成对统计人口数据的空间化。目前已经被证明与人口分布相关的影响因子有居住单元空间属性、影像像元特征和社会感知数据等。比如Zeng C[10]和Wei Y[11]等人研究结果表明,夜间灯光辐射值与人口数量之间呈显著的相关关系。陈名娇[12]和张腾[13]等人证明微博签到数据和城市人口活动特征有联系,徐东[14]和淳锦[15]等人分别利用地图POI对城市休闲空间特征和人口空间化进行了研究等。
虽然国内外对于使用腾讯位置大数据进行人口空间化的研究成果不多,但是基于其他社会感知数据的研究大多采用多元线性回归[15]和多项式回归[16]构建人口空间化模型。因此在前人对人口空间化研究模型达成共识的基础上,结合腾讯位置大数据自身的特点对模型进行了选择。为了得到合适的人口估算模型,本文选取部分样本数据预先进行了试验。实验结果发现腾讯定位次数数据和人口数据具有很强的相关性,且多项式回归中的二次多项式回归模型曲线拟合程度最佳,即区域i内的腾讯地图定位次数总和与该区域内统计人口数之间可以用一个二次多项式进行拟合(公式1)。其中
为区域i内的常住人口数,
为区域i内的腾讯地图定位次数总和,a,b为比例系数,c为截距,e为误差。

二次方程的截距是由街道级别样本腾讯地图定位次数和统计人口数拟合产生的,这个常数项包含了街道样本中所有格网的总体贡献,所以如果将模型的尺度降低到格网尺度,还需要对街道尺度下的截距进行处理。对于降尺度后截距的处理,最简单的方式是将街道尺度回归方程中的常数项转换为格网尺度的平均值[3],因此,本文提出1km*1km格网尺度下人口估算模型(公式2)。

其中,
表示第i个格网的估算人口数,
表示第i个格网的腾讯地图定位次数,a,b表示
的比例系数,c表示街道尺度下腾讯定位次数和统计人口数拟合的截距,
表示第i个格网所在街道总共包含的格网数。
本文利用ArcMap软件将腾讯位置大数据与南京市各个街道进行叠加分析,计算出每个街道行政界线内的定位次数总和,并对各个行政区的定位次数和统计人口数进行回归分析,建立街道尺度人口估算模型。经实验得知街道样本的二次项比例系数a为0.01,一次项比例系数b为0.1925,截距c为40354人。将以上参数输入到公式2中并应用到每个格网上,从而获得南京市1km*1km的人口估算格网图(图2),成功实现了由街道尺度常住人口向1km*1km格网尺度估算人口的转变。

Fig.2Estimated grid of 1km*1km population in Nanjing
利用腾讯位置大数据的人口空间化结果显示,南京市估算常住人口数为705.1万人,平均人口密度为1175人/km2。而南京市统计常住人口数为724.2万人,平均人口密度为1213人/km2,因此利用腾讯位置大数据人口空间化结果在总体上与统计人口数据保持一致。
为了验证利用腾讯位置大数据进行人口空间化结果的有效性,本文统计了各街道范围内估算格网的人口数,并对各街道估算人口数与统计人口数进行线性拟合(图3)。图3显示基于腾讯位置大数据的人口空间化结果总体保持良好的精度,格网级人口估算数量在街道范围内的汇总和街道级常住人口统计数据拟合为线性关系,且比例系数为0.9039,R2为0.743,结果总体可信。

Fig.3Regression analysis of population distribution grid and resident population at street scale
本小节目的是利用基于建筑物的居住空间属性和前文得到的南京市1km*1km人口估算格网数据的相关关系建立精细尺度人口估算数学模型,估算出格网内部住宅小区级别的人口数量。传统的居住单元法认为研究区内居住单元的数量和人口数之间具有线性关系,国内外许多学者也认为精细尺度下影响人口分布的最优因子是建筑物体积[17~18],因此本文假设居住单元的建筑体积和人口数之间也具有一定的正相关关系,建立模型,其数学模型如公式3所示:

式中,
表示第i个格网的估算总人口,
表示第i个格网内第j个居住单元的建筑斑块占地面积,
表示第i个格网内第j个居住单元的建筑物层数,a,b为模型系数。
格网尺度人口估算模型中,二次方程的截距是由街道样本中所有格网共同贡献的,对于截距的处理是将截距除以街道内格网总数,即视为每个格网对截距的贡献是平均的。但对于本文的研究区秣陵街道来说,研究区南北差异较大,秣陵街道北部住宅用地较多,人口分布集中,相应地腾讯地图定位次数也较大,而秣陵街道南部住宅用地偏少,因此定位次数较小。如果将人口估算模型的截距平均分给每个格网,则会导致秣陵街道南部的部分格网人口估算值偏大,而北部的部分格网人口估算值偏小。为了解决这个问题,本节提出基于腾讯位置大数据的人口估算格网的纠正模型。其主要思想为:之前提出的二次方程的截距不再认为是街道内所有格网的平均贡献,而是根据定位次数来分配,即定位次数高的格网,对截距的贡献较大,而定位次数低的格网,对截距的贡献较小。其数学模型为:

公式中,
表示第i个格网的估算人口数,
表示第i个格网的腾讯地图定位次数,a,b表示
的比例系数,c表示街道尺度下腾讯地图定位次数和统计人口数拟合的截距,SumLoc表示街道内所有格网的定位次数总和。将研究区秣陵街道的格网级定位次数带入公式4中,即得到了秣陵街道的1km*1km格网尺度人口估算结果,如图4所示。

Fig.4Population estimation grid of Moling street
从图4可以看出,估算出的秣陵街道人口呈现出北多南少的分布特征,与秣陵街道实际人口分布情况一致,这也从侧面验证了纠正后的秣陵街道人口空间化模型较为准确。
传统的精细尺度人口估算基本以街道为建模控制单元,但本文的研究区已经是街道级别,以街道为建模控制单元显然不合适。因此,本文选取基于腾讯位置大数据估算得到的1km*1km人口格网为建模控制单元,且认为在同一街道内人均居住空间属性相似,即在同一街道内公式3的模型系数a是一个常数。同时,根据生活常识,夜晚时分,无居住建筑物则无人口分布,即模型系数b=0,从而确定小区级人口估算模型为:

公式5中,
为第i个小区的估算人口数,模型系数a是一个常数,n表示第i个小区内包含的居住建筑物个数,
代表第i个小区内第j个建筑物的建筑斑块面积,
表示第i个小区第j个建筑物的建筑物层数。
因此确定模型的模型系数a是本实验研究的重点所在,为了确定模型系数a,首先需要选择建模样本。而秣陵街道内有许多不属于住宅用地的高校,高校学生较多且夜间手机使用率较高,所以样本选择时应尽量在避开高校的前提下选择包含住宅小区的格网。
本文一共选取了54个1km*1km格网作为建模样本,分别计算这54个格网内居住建筑物的占地面积与楼层层数的乘积即建筑体积(Area*NOF),然后将这54个格网的估算人口与对应格网的建筑体积进行线性回归分析,发现他们之间存在线性相关关系且模型比例系数a为0.021。之后将获取得到的参数以及每栋建筑物的占地面积和楼层的乘积代入公式5中,则得到建筑物尺度人口空间分布的细节信息。最后,基于秣陵街道小区边界数据,统计各个小区内建筑物的居住空间属性,即建筑物斑块占地面积与楼层层数的乘积,带入公式5中,则得到了秣陵街道小区级别的人口分布图(图5)。

Fig.5Estimation of population distribution in the residential area of Moling Street
秣陵街道共有210个小区,为了验证本文精细尺度人口估算模型的有效性,还需抽样调查一些小区作为样本。由于小区类别分为别墅区、多层住宅、高层住宅以及含有商业区的住宅小区,别墅区的人均居住面积较普通多层或高层小区偏大,在同时使用公式5的情况下,别墅区的估算人口会大于真实人口数,因此在选择样本的时不同类型的小区要按不同类型小区所占比例平均选择。同时为了保证抽样小区在空间上随机性离散分布,还需通过 ArcMap软件对其进行空间自相关分析,根据Moran’s I来筛选符合离散分布特征的小区。
本文从小区类别和小区空间分布两个方面实地抽样调查了30个小区人数,将小区级人口估算数量和抽样调查得到的30个小区人口总数量进行线性拟合,结果如图6所示。基于居住空间属性数据的小区级人口空间化结果总体保持较好的精度,估算结果和实地调查结果拟合为线性关系,且比例系数为0.9957,R2为0.9494,结果精度较高。
▲图6模型估算人口与实地调查人口在小区尺度上的回归
Fig.6Regression analysis of model estimated population and field survey population at community scale
本文利用腾讯位置大数据与人口统计数据之间的相关关系建立格网级别人口空间化模型,通过实验得到南京市1km*1km人口分布格网,精度评价的结果表明格网人口估算精度较好;根据居住空间属性数据和得到的人口格网数据之间的相关关系建立小区级别人口空间化模型,实验实现了格网内部小区级人口空间化并得到秣陵街道住宅小区的人口分布数据,精度评价显示本文提出的基于腾讯位置大数据的精细尺度人口空间化模型可以更精确的估算出小区级别人口分布情况。
相较于传统的常住人口数据统计方法,该模型具有以下优点:1)该模型降低了人口数据获取的难度,且一定程度上提升了自动化水平;2)由于腾讯位置大数据是实时更新,所以利用该模型能实时反映城市人口分布变化情况;3)在格网内部精细尺度人口空间化的研究方法上,本文选取建筑物斑块占地面积和楼层层数描述的居住空间属性为主要影响因子,建立精细尺度人口估算模型。精度评价表明,该方法估算出的住宅小区级人口和实地调查小区人口线性拟合R2为0.9494,估算结果可信度较高。
本文提出的基于腾讯位置大数据的精细尺度人口空间化对人口分布模型有一定贡献,但目前研究中仍存在以下不足:1)由于计算机存储 能力有限,本文只获取了十天跨度的腾讯位置大数据,时间跨度较短,会给结果带来一定误差。2)在基于居住空间属性进行格网内部人口空间化的过程中,仅仅以居住建筑物斑块占地面积和楼层层数为影响因子进行模型构建,考虑还不够全面。因此在接下来的基于居住空间属性进行格网内部人口空间化的研究中,可以进一步考虑建筑物户型、建筑物公摊面积、建筑物住房空置率等更多的影响因子及相应模型的构建,使得人口估算结果更为准确。
参考文献(Reference):
[1]田野.基于高分辨率遥感数据的城市人口空间化研究[D].中国科学院大学(中国科学院遥感与数字地球研究所),2017.
[2]马钰琪,朱秀芳,刘宪锋,等.基于夜间灯光数据和多地理因子数据的人口空间化方法——以辽宁省为例[J].北京师范大学学报.自然科学版,2015,51(S1):57-61.
[3]黄益修. 基于夜间灯光遥感影像和社会感知数据的人口空间化研究[D].华东师范大学,2016.
[4]董南,杨小唤,蔡红艳.基于居住空间属性的人口数据空间化方法研究[J].地理科学进展.2016,35(11):1317-1328.
[5]毛莹莹.城市人口数据空间化研究[D].福建师范大学,2016.
[6]卢佳.基于腾讯位置大数据的四大城市群内部空间联系格局特征研究[A]. 中国城市规划学会、东莞市人民政府.持续发展理性规划——2017中国城市规划年会论文集(05城市规划新技术应用)[C].中国城市规划学会、东莞市人民政府:2017:10.
[7]王贤文,王虹茵,李清纯.基于地理位置大数据的京津冀城市群短期人口流动研究[J].大连理工大学学报(社会科学版).2017,38(02):105-113.
[8]于丙辰,陈刚.基于腾讯区域热力图的庐山核心景区客流研究[J].国土与自然资源研究.2017(02):83-89.
[9]《江宁年鉴(2016)》编纂委员会《江宁年鉴(2016)》编纂委员会.郭传华主编,江宁年鉴,方志出版社,2016,3,年鉴.
[10]ZENG C, ZHOU Y, WANG S, et al. Population spatialization in China based on night-time imagery and land use data[J]. International Journal of Remote Sensing, 2011, 32(24):9599-9620.
[11]WEI Y, LIU H, Song W, et al. Normalization of time series DMSP-OLS nighttime light images for urban growth analysis with Pseudo Invariant Features[J]. Landscape & Urban Planning, 2014, 128(128):1-13.
[12]陈名娇.基于微博数据的深圳市居民生活空间研究[D].深圳大学,2017.
[13]张腾.基于微博签到数据的主题公园游客时空行为研究[D].上海师范大学,2017.
[14]徐冬,黄震方,吕龙,等.基于POI挖掘的城市休闲旅游空间特征研究——以南京为例[J].地理与地理信息科学,2018,34(1):59-64.
[15]淳锦,张新长,黄健锋,等.基于POI数据的人口分布格网化方法研究[J].地理与地理信息科学,2018,34(4):83-89.
[16]卓莉,陈晋,史培军,等.基于夜间灯光数据的中国人口密度模拟[J].地理学报,2005(02):266-276.
[17]卓莉,黄信锐,陶海燕,等.基于多智能体模型与建筑物信息的高空间分辨率人口分布模拟[J].地理研究.2014,33(03):520-531.
[18]DONG P, RAMESH S, NEPALI A.Evaluation of small-area population estimation using LiDAR, Landsat TM and parcel data[J]. International Journal of Remote Sensing, 2010, 31(21):5571-5586.
商业投稿、合作等,请联系客服微信号,加好友必须备注:合作+姓名
原文始发于微信公众号(城市数据派):【研究成果】基于腾讯位置大数据的精细尺度人口空间化丨城市数据派