写在前面:
作者提出一种百度热力图人口活动数量提取方法。对参数进行敏感性分析,发现网格大小影响数据的颗粒度,而地图缩放级别影响人口活动总数。以广州市环城高速公路以内的区域为例进行不同方法的对比分析,表明该方法适用于规划设计的横向比较研究。
张海林
广州市城市规划勘测设计研究院 高级工程师
人口是交通规划设计的重要基础信息和决策依据,是影响各类设施布局的主要因素,如何高效、准确地获取人口数据是规划设计的关键问题之一。传统的人口数据获取方式通常采用人口普查和调查访谈,但随着城市规模扩大和发展转型,社会群体的异质化和生活方式的多元化使城市人口时空行为特征日益复杂,导致更新速度慢、时间相对滞后。近年来,随着规划行业中大数据应用的普及,以手机信令、公共交通刷卡、百度热力图和微博签到等为代表的多源位置数据在城市研究中得到广泛应用[1-2]。通过位置大数据的挖掘和分析,可为交通规划设计中的调查、分析和评估提供实时、客观的视角,弥补了传统数据调查的时效性和动态性不足等问题。
百度热力图是一款以智能手机用户使用具有定位功能的手机百度软件为基础的数据产品,以不同的颜色及亮度动态反映人口活动空间的聚集程度。尽管百度热力图不是准确的人口分布数据,但它相较于手机信令和公共交通刷卡等运营商数据更易于获取,在规划设计领域得到了大量的应用探索。应用实践主要集中在三个方面:1)研究人口聚集时空特征,例如聚集度、聚集位置、人口重心等指标,进而对城市空间结构进行评价和优化[3-6];2)构建职住平衡指数,探讨城市职住空间特征[7-9];3)评价绿地公园等公共空间的活力等级,为城市公共空间的品质提升提供量化支撑[10-12]。这些实践表明经过挖掘和处理后的百度热力图用于规划设计具有可行性。
百度热力图是经过数据渲染处理的图片数据,属于栅格类型,无法直接显示或读取人口活动数量,因此用于规划设计时需要进行数据挖掘,提取能反映人口活动的数量指标,现有研究以规划应用为主,较少关注人口活动数量提取方法的总结及数据适用性分析。因此,本文基于现有研究,根据规划设计不同层面的数据需求,研究提出一种更具普适性和可操作性的百度热力图人口活动数量提取方法,并通过关键参数的敏感性分析,探讨百度热力图数据在规划设计中的应用要点。
研究回顾
1
百度热力图数据基本特征
1)数据原理。
百度热力图的工作原理是以亿级规模手机用户为基础,基于用户访问百度产品(如地图、搜索、天气、音乐等)时的位置信息,统计不同区域内的人口活动数量,经过密度分析处理后在百度地图上可视化。
2)数据特征。
百度热力图是一种时空数据,以不同颜色和亮度实时描述城市中人群的空间分布情况,共包含七种颜色,分别为红色、橙色、黄色、绿色、青色、浅蓝色、蓝色,代表不同的人口聚集密度(见图1)。百度热力图数据具有时效性,每15 min更新一次,且只在14~18级地图缩放级别中显示,地图缩放级别越大,图片细部显示越详细(见图2)。

图1 百度热力图颜色与人口聚集密度对应关系

图2 不同缩放级别下百度热力图显示对比
2
现有处理方法总结
百度热力图数据统计是基于某一时刻访问百度产品的手机用户,尽管用户量为亿级规模,但仍属于抽样数据,因此主要用于规划设计的横向比较研究中。现有数据处理方法大致分为热区面积法和活动数量法(见表1)。
表1 百度热力图数据现有处理方法对比

热区面积法不考虑图片颜色与人口聚集密度的真实关系,而是将图片颜色赋予1~7的自定义热度数值,用热度数值替代人口聚集密度,通常1~3级为低热区(对应蓝色、浅蓝色和青色),4~5级为次热区(对应绿色和黄色),6~7级为高热区(对应橙色和红色),再通过矢量化分别提取各热区的面积,最后以热区面积的大小来比较人口活动数量。方法假定在相同区域范围内,高热区的面积越大则区域内的人口活动数量越大[5]。该方法操作简单,但采用高热区(包括橙色和红色区域)面积值作为人口活动数量的衡量指标,未考虑不同热区人口聚集密度的差异,影响数据结果的准确性。例如面积相同的A和B两个高热区,A区全为红色,B区全为橙色,利用该方法得到的人口活动数量相同,实际上由于红色区域的人口聚集密度高于橙色区域,A区的人口活动数量也应大于B区。
活动数量法将百度热力图的颜色与人口聚集密度进行关联,先通过矢量化提取区域内各类颜色的面积,再乘以对应颜色的人口聚集密度值,求得区域内各颜色对应的人口活动数量,最后将区域内各类颜色的人口活动数量求和得到区域人口活动总量。在相同区域范围内,人口活动总量越大,说明区域内的人口聚集越密集[8]。该方法数据准确性较高,具有较好的可比性,但通常以整个城市、行政区或街区为数据统计范围,数据颗粒度较大,主要用于中观和宏观层面的研究,如果用于微观层面的规划分析,还需进一步缩小数据的颗粒度。
人口活动数量提取方法
1
数据要求
百度热力图应用于交通规划设计的核心是通过提取能表征人口活动强度的时空指标揭示城市人口时空变化特征。考虑宏观、中观和微观层面的不同需求,数据应满足三个要求:1)能将百度热力图颜色与人口聚集密度进行关联,以提高数据的准确性和可比性;2)能根据研究尺度提取不同颗粒度的数据,以满足不同层面的分析需要;3)能将结果数据转换为点要素,方便在ArcGIS等地理信息平台进行空间分析。
2
提取方法流程
以活动数量法为基础,结合数据要求,提出方法流程(见图3)。该方法包括5个主要步骤,具体可在ArcGIS中予以实现。
1)数据预处理:对百度热力图原始数据进行裁剪、地理配准及投影转换;
2)重分类:依据热力图颜色与人口聚集密度的对应关系对数据重新进行分类;
3)网格划分:根据研究尺度及数据颗粒度要求,将热力图范围划分为规则或不规则的网格,以便后续提取不同颗粒度的数据;
4)人口活动数量统计:结合栅格像元面积、人口聚集密度,计算各个网格内人口活动总数;
5)结果输出:将结果输出为点要素。

图3 百度热力图人口活动数据提取方法流程
3
关键流程要点
1)重分类。
为实现人口活动数量结果的准确性和可比性,需将百度热力图的颜色与人口聚集密度形成对应关系,既有研究中不同颜色仅有人口聚集密度的区间值,且蓝色和浅蓝色对应的人口聚集密度存在缺失,无法直接用于人口活动数量提取,需要进一步细化。
经研究发现,百度热力图数据的Alpha通道(第4个通道)数值范围为60~194,与图片颜色存在区间连续对应的关系(见表2)。由于各个颜色的Alpha值区间连续且不交叉,因此研究假定图片颜色对应的人口聚集密度与Alpha值为一元线性关系,则可建立人口聚集密度重分类函数。

式中:Pi为第i个栅格的人口聚集密度/(人·hm-2),SAi为第i个栅格的Alpha通道值。按照上述分类函数,即可对百度热力图数据进行重分类,重分类后的栅格像元像素值即为对应的人口聚集密度值。
表2 人口聚集密度与Alpha通道值的对应关系

2)网格划分。
划分网格的目的是提取不同颗粒度的数据,以满足不同层面的分析需要,同时为结果数据转换为点要素提供基础。网格大小需考虑研究区域面积和数据处理效率两个因素,网格越小,划分出的网格数量越多,提取的数据颗粒度越小,但会增加数据处理时间;反之网格越大,数据处理时间越短,但提取的数据颗粒度越大。由于百度热力图中一个像元的实际宽度约为2(18-zl) m(ZL为缩放级别),14~18级缩放级别对应1.0~16 m,因此考虑地图分辨率的影响,网格大小不宜小于20 m。在实际规划设计中,城市或片区层面通常将网格大小设定为1 000 m×1 000 m,街区或街道层面可将网格大小设定为50 m×50 m。
3)人口活动数据统计。
通过像元大小Sz、栅格人口聚集密度Pi求得每个像元上的人口活动数量,再将网格中各个像元的人口活动数量求和,即可得到该网格内的人口活动数量Zj,其中像元大小Sz应与投影后栅格属性中的像元大小值一致。即

式中:j为网格序号;Pj,i为第j个网格内第i个栅格的人口聚集密度/(人·hm-2)。在得到每个网格的人口活动数量基础上,整个研究范围内的人口活动数量可表示为

4
测试结果
在ArcGIS中通过模型构建器建立工作流,输入数据为百度热力图原始数据和网格尺寸大小,输出结果为带有人口活动数量值的点要素。图4为部分过程数据,其中输入的百度热力图缩放级别为16级,网格大小为200 m×200 m,从结果来看,人口活动数量与原数据的人口空间分布趋势基本一致,表明上述方法具有可行性和可操作性。

图4 人口活动数量提取示例
参数敏感性分析
研究方法流程涉及网格大小和百度热力图缩放级别两个参数,为分析其对提取数据结果的影响,对这两个参数分别进行敏感性分析。
1
网格大小
网格大小决定了结果数据的颗粒度。以广州市环城高速公路以内的区域为例,百度热力图为16级缩放级别,统计时长为连续24 h,间隔为1 h,网格大小分别为100 m,500 m和1 000 m,统计结果如图5和表3所示。可以看出,不同网格大小的人口活动数量时间变化趋势完全一致,人口活动数量在5:00—10:00急剧上升,10:00—22:00变化相对平稳,22:00—次日5:00急剧下降,这与城市人口活动规律基本吻合。在同一时刻点上,三组数据的差异均不超过±0.15%,可认为人口活动数量基本一致,这与城市人口分布规律也基本吻合,即同一区域、同一时间内的城市人口数量具有稳定性。上述分析结果表明,在相同地图缩放级别的情况下,网格大小不会造成人口活动总数的差异,而主要影响结果数据的颗粒度。

图5 不同网格大小的人口活动数据变化对比
表3 不同网格大小的人口活动数据差异对比

2
地图缩放级别
不同地图缩放级别下,百度热力图的显示存在较大差异。为分析地图缩放级别对数据结果的影响,仍以广州市环城高速公路以内的区域为例,网格大小为500 m,统计时长为24 h,间隔为1 h,分别提取15级、16级和17级3个缩放级别的人口活动数据,结果如图6和表4所示。可以看出,在10:00—22:00人口活动平稳区间,相邻缩放级别之间的人口活动数量相差约30%~40%;23:00—次日10:00,相邻缩放级别越大,人口活动数量上升或下降的趋势越快;在5:00左右,3个缩放级别的人口活动数量基本接近,差异约在1.5%左右。不同缩放级别下人口活动数量随时间的变化趋势仍大体一致,但在数量上差异较大,总体上缩放级别越大,人口活动数量越小。可能原因是随着地图缩放级别的减小,热力图中红色区域面积占比增大,因此提取到的人口活动数量越多。上述结果表明,在网格大小相同的情况下,不同地图缩放级别会造成人口活动总数的显著差异,在使用百度热力图数据进行交通规划设计时,数据提取应在同一缩放级别下进行,并需根据研究范围大小,合理选择地图缩放级别。

图6 不同缩放级别下的人口活动数据变化对比
表4 不同缩放级别下的人口活动数据差异对比

规划应用场景
1
数据优缺点
为对比数据优缺点,以广州市环城高速公路以内的区域为例,分别采用本文方法、热区面积法和活动数量法进行分析,百度热力图地图缩放级别为16级,时间为11:00。参数取值上,本文方法网格尺寸为200 m,热区面积法中热区分类标准与既有研究保持一致,活动数量法中人口活动密度值采用区间均值,并以街镇为统计单元,结果如图7所示。由于三种方法的数据结果及尺度不同,难以进行具体量化比较,因此,结合规划设计数据要求,从结果数据与原始数据(见图7a)人口活动聚集趋势一致性、是否直观体现人口活动数量高低、数据颗粒度能否体现不同区域人口聚集密度差异三个方面进行对比分析。




图7 不同处理方法结果对比
从结果可以看出,热区面积法(见图7b)尽管人口聚集总体趋势与原始数据一致,但提取结果仅为热区面积。根据统计,环城高速公路内高热区面积为71 km2,占总面积的32%,这一结果并不能直接得到人口活动数量,仅能作为间接衡量指标。同时热区面积法未考虑不同热区人口聚集密度的差异,导致数据结果无法体现人口活动空间的细部区别。
活动数量法(见图7c)以街镇为统计单元(共91个),尺度较大,与原始数据相比,该结果数据无法刻画人口聚集微观特征。活动数量法能直接得到各街道的人口活动数量,根据统计,环城高速公路内人口活动总量为47万人,各个街道平均人口活动数量为5 160人。由于各街道面积不一致,往往面积越大人口活动数量也越大,因此数据无法直观比较不同地点的人口聚集密度,需要根据人口活动数量和街镇面积进行转换。
总体上看,本研究方法(见图7d)对原始数据的刻画更加准确和精细,既能得到各网格的人口活动数量,也能体现不同区域人口聚集密度差异。1)根据百度热力图Alpha通道值与颜色的对应关系,建立了人口聚集密度分类函数,可直接获得各个网格内的人口活动数量,环城高速公路内总人口活动总量为53.9万人,各个网格平均人口活动数量为94人。2)将热力图范围划分为指定大小的网格(共5 723个),使结果数据的颗粒度与网格大小保持一致,从而有效缩小了数据颗粒度(比活动数量法缩小了62倍),能更好地体现人口聚集细部变化特征,支撑微观层面规划设计,且由于各个网格大小相同,结果数据也能直观体现不同地点人口聚集密度差异。
考虑百度热力图本身特征和研究方法流程,结果数据仍存在一定不足:1)百度热力图数据本质上属于抽样数据,故本方法提取的人口活动数量仍为相对值,并不是实际的人口数量;2)本文假定百度热力图不同颜色对应的人口聚集密度与第四通道Alpha值为一元线性关系,经转换后数据会存在一定程度的精度损失;3)百度热力图主要覆盖大中城市,部分中小城市并未有热力数据,因此在使用空间范围上存在限制。
2
数据适用性
由于百度热力图数据本身为抽样数据,提取到的人口活动数量并非实际的人口数量,因此本文方法结果数据主要适用于规划设计的横向比较研究。宏观层面,可应用于城市人口活动空间结构分析,评估不同区域人口聚集度,支撑城市空间结构和用地开发优化调整;中观层面,可应用于规划区域及各类公共空间的活力等级评价,支撑城市公共空间的品质提升研究;微观层面,可通过人口活动数量的量化对比,支撑各类公共服务设施如公共交通车站、购物商场的规划选址。目前,百度热力图的规划应用场景尚未达成统一的共识,上述不同层面具体应用场景仍值得进一步探讨和挖掘。
3
实践案例
以广州市临江大道景观带(广州大道至华南快速路段)公共停车场选址规划为例,对百度热力图人口活动数量在中微观层面规划设计中的实际应用进行说明。
临江大道景观带紧邻珠江新城和广州塔,是广州市重要的旅游观光目的地。2018年,广州市临江大道景观带沿线实施品质化改造,取消了2座露天公共停车场,导致沿线停车供需矛盾加剧,车辆违法占道停车等问题日益突出,迫切需要新建公共停车场,以解决观光休闲停车需求。根据停车需求预测,该区域公共停车位需求约150个。问卷调查显示,高峰时段临江大道景观带85%的游客来自广州市其他区域,来自周边区域游客数量较少,其活动人口基本为吸引人口,因此采用百度热力图人口活动数量分析停车需求的空间布局。
为合理规划停车场,保障停车供给与需求在空间和数量上的匹配,本文提取2019年4月15—19日共5天的人口活动数据,地图缩放级别为18级,网格大小为50 m×50 m。将提取的结果数据在ArcGIS中进行核密度分析,发现临江大道景观带休闲人群主要集中在花城广场和海心沙周边。进一步统计各区段的人口活动数量与研究范围内人口活动总量的比值,作为停车位空间分配的比例依据(见图8)。例如,海心沙区段人口活动数量占总量的41%,其分配的停车位即为150×0.41=62个。可见,通过百度热力图人口活动数据,能更客观、更准确地掌握停车需求空间分布情况,为该项目的规划设计提供了有效的量化支撑。

图8 临江大道景观带人口活动特征及停车位需求示意
写在最后
百度热力图是一种能动态反映城市人口聚集特征的互联网开源数据,具有易获取、数据结构简单的特点。将其用于交通规划设计,能有效降低数据分析成本,弥补传统人口数据时效性和动态性不足的问题。
本文提出了一种百度热力图人口活动数量提取方法,主要包括重分类、网格划分、人口活动数量统计三大关键流程。重分类是将百度热力图的颜色与人口聚集密度之间建立对应关系;网格划分是为了提取不同颗粒度的数据,以满足不同研究尺度的数据要求;人口活动数量统计是计算每个网格内的人口活动数量,并转换为点要素。该方法包含网格大小和地图缩放级别两个参数。研究表明,网格大小不会造成人口活动总数上的差异,主要影响结果数据的颗粒度;而不同地图缩放级别会造成人口活动总数的显著差异。因此,在使用百度热力图数据进行规划设计时,数据提取应在同一缩放级别下进行,并需根据研究范围大小,合理选择地图缩放级别。
与既有方法相比,本文的结果数据具有更高的准确性和更小的颗粒度,适用于规划设计的横向比较研究。本文主要探讨人口活动数量提取方法,对百度热力图数据本身的校正和具体适用场景未做更深入的研究。在现有规划研究的基础上,如何通过多源数据的相互校核,来验证百度热力图的数据质量和规划适用场景,仍值得进一步研究。
《城市交通》2021年第3期刊载文章

点击“阅读原文”查看
“案例研究”栏目更多内容
关注解锁更多精彩
2021153期
编辑 | 耿雪
审校 | 张宇
排版 | 耿雪
原文始发于微信公众号(城市交通):基于百度热力图的人口活动数量提取与规划应用