写在前面
为研究新兴数据源在人群空间活动分析中的实用性,作者以软件开发工具包(SDK)数据为基础,构建中观尺度下特定城市空间和特定人群的空间活动分析方法,并以舟山市为例进行实例分析。结果表明,SDK数据源具有更加精确的定位以及更加丰富的用户属性信息,可以为特定人群出行时空优化和出行服务、公共设施定制化配置、应急管理对策等提供决策依据。
李星月
浙江省城乡规划设计研究院 工程师 创新研究中心副主任 智慧城市研究中心副主任
城市空间结构与人群活动规律密切相关,了解人群的空间活动有助于揭示居民利用城市空间的时空规律,发掘人群在城市中活动的潜在动力,评价城市各项基础设施建设的合理性[1],对于城市交通治理、出行服务、公共资源配置优化等具有重要意义。
大数据技术的迅速发展使其逐渐渗透到社会的各个领域,同时也为了解城市人群的空间活动规律提供了新的依据和可能。随着人群的空间活动越来越复杂,在城市交通领域引入复杂性理论和大数据分析技术,通过两者融合推动学科变革的理念越发深入人心[1]。目前,通过大数据对居民或游客空间活动的研究有很多,使用的数据包括基于位置的服务(Location Based Services, LBS)数据、百度兴趣点(Point of Interest, POI)数据等。1)手机信令数据作为LBS 数据的代表,是应用较早和较为广泛的数据集。利用手机信令数据可以研究城市人群活动特征进而总结其空间活动模式[2];获取特定人群活动特征进而完成城市专项治理[3];分析居民活动规律进而引导居民行为,提升社区和城市空间的品质[4-5]。2)相较于手机信令数据,微博签到LBS数据来源于社交媒体,可以提供性别、地区等人群属性。3)利用微博签到LBS数据,可以根据用户属性对人群进行识别,从时间、空间、活动、活动者等多个方面提供更加细化的研究,通过分析不同类型人群的时空行为特征,发现其差异与规律[6-8]。4)基于手机APP的LBS数据,是用户在使用移动互联网的定位请求时所激发的,来自客户APP登陆、搜索、发送、接收、推送等事件所形成的即时位置数据。5)文献[9]使用Talking Data数据对街区活力进行了量化测度,测算了建成环境对街道活力的影响。此外,通过多源数据融合可以获得不同社区居民活动区域特征的共性和差异[10],能够从不同角度测度城市职住关系的时空特征、分析城市休闲活力空间分布特征、计算城市商圈服务范围[11-12]等。
现有研究探索了各类LBS数据在城市人群空间活动、空间分布、空间活力量化等方面的应用,使用数据源多以手机信令数据为主,各研究的相似程度较高,研究方法多采用统计分析和聚类算法[3-5, 7-8],在完成对人群和空间分类的基础上,分析不同人群、不同空间的分布特征。但是囿于手机信令数据自身的缺陷,数据定位精度只能精确到基站,各类分析的精度也只能达到街区级。此外,在样本量较大时,要获得可信的聚类结论有一定困难。
与以往研究不同,本文以软件开发工具包(Software Development Kit, SDK)采集的手机APP数据(以下简称SDK数据)为基础开展研究。SDK数据可以提供更为精确的定位信息,对于人群活动的分析可以精确到楼宇级,活动点可以定位到小区、医院、商场、道路等。SDK数据还可以洞察用户线上线下行为,挖掘用户特征,形成多维、丰富、准确的人群画像,例如性别、年龄层次、来源地、兴趣爱好、消费水平以及其他用户行为等。
本文以浙江省舟山市为分析示例。由于舟山市作为旅游城市常住人口不多、旅游人口比例较高,研究对象除传统的城市居民外,还以游客为对象,分析游客的旅游空间活动特征。
数据说明
SDK数据由浙江每日互动网络科技股份有限公司的“个推”产品提供。移动互联网的快速发展使得“互联网+”理念日益渗透到生活的方方面面,各式各样的APP也应运而生。本文使用的SDK 数据为APP 用户匿名地理位置数据,数据获取方式包括事件触发和被动交互,得到的数据同时记录了用户的时间和空间位置信息。事件触发获取是用户使用移动互联网的定位请求时所激发的,来自用户在各种APP登陆、搜索、发送、接收、推送等事件发生时所形成的即时位置数据;被动交互获取则来源于自启动APP的后台汇报,该方式在用户不使用APP时也会激发和返回数据。
SDK对位置数据的采集有其优势和劣势。劣势在于各用户设备本身状况及所处网络环境不同,即使主动采集频率一致,不同设备间汇报频率也不完全一致(采集频率会直接影响用户设备电量消耗,因而无法随意调整),可能造成样本间质量差异。在全量计算前要先抽样观察样本分布,根据实际场景筛选样本,以提升效率和可信度。优势在于位置信息直接来源于设备的GPS模块,精度高偏差小,能满足高分辨率要求的人群统计、出行OD等场景。SDK除位置外也会同时采集其他匿名数据,数据维度丰富。
根据统计,SDK数据单个用户日均汇报条数为40 条,每小时平均汇报条数为1.67条。根据数据汇报小时分布(见下图),SDK数据获取的高峰时段为12:00—13:00 和19:00—22:00,时均超过2条,低谷时段为2:00—4:00,时均不足1 条。根据数据的时空关联可以构建用户的出行时空轨迹,反映人口的流动和集聚变化。

SDK数据汇报小时分布
相较于手机信令数据等常规大数据,SDK数据的优势在于其更加精确的地理位置定位和强大的人群画像能力(见下表)。首先,SDK数据定位可以精确到楼宇级,最高可以达到9 位地理散列(Geohash9,Geohash的基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块或网格,每个子块在一定经纬度范围内拥有相同的编码),并且能够根据不同的规划需求,自定义研究范围。其次,基于主流APP的SDK推送还能够对用户进行多维度、高精度的人群画像,获取用户的各种属性信息。
SDK数据与其他LBS数据对比

研究选取2018 年4月1日至8月18日舟山市范围内连续140天的SDK数据,数据总量逾30亿条。经过数据清洗后,平均每天约48万用户产生约2592万条记录,每个用户平均每天产生约54条记录。其中,数据有效位置点总数为8762个,定位精度采用8 位Geohash,即Geohash8,范围为19.0m×38.2m。
人群空间活动分析方法
本文以居民和游客两类人群为对象。首先需要对人群进行划分,进而针对居民和游客进行个性和共性分析。研究主要包括职住分析、路径分析、时空分布特征分析以及游客旅游特征分析。算法中所采用的判定阈值均为多个阈值比较后的较优选择。
为区分居民和游客,以源数据为基础,通过信号去重等预处理方法,获得分析数据集。人群划分算法为:统计在目标城市汇报过位置的所有用户,将出现天数大于70天的用户识别为当地居民,将停留时间大于4h且在7天以内的用户识别为游客。
居住和就业是城市的两大重要基本活动,居民的职住地分布对城市交通、城市的规划管理有着极大影响。随着城市扩张和城市空间重构,很多城市的职住关系发生了一系列变化,由于居民职住地分离所引发的交通拥堵问题受到广泛关注。SDK数据可以提供高精度的居民职住地分析,获取城市空间中职住空间的分布情况。
职住地分析算法为:1)对于居民每人每天汇报的多个数据,对其汇报时间所在时段进行打分;时段分值设置整体依据用户生活规律,越可能处于静止状态的时段分值越高,相反则越低,时段7:00—10:00,12:00—13:00和18:00—21:00未投入计算也是相同原因,这些时段用户处于通勤期间或者外出的可能性很高,剔除以避免干扰计算,提升结果可信度。2)根据打分结果,每天产出一个最高分值的Geohash8级别的居住地和工作地。3)综合所有的识别结果进行历史汇总和迭代更新,取最多出现的地方作为用户居住地和工作地(见下图)。

居住地、工作地计算流程
随着城市交通需求急剧增加,城市道路交通拥堵问题也越发严重,逐渐成为制约城市发展的重要因素。城市客运交通的产生在于人的移动,出行者特别是小汽车出行者的路径选择情况对于城市交通管理和交通组织都有着重要意义,以往通过出行者路径选择行为模型进行研究,往往实用性欠佳且缺乏直观的表现。
在高精度定位坐标下,用户出行路径可以直接定位到城市道路网。通过用户反馈数据的时空关联性,可以洞察城市特定时段(如早高峰)居民的通勤出行对于城市道路的使用情况或通勤出行路径在城市道路网的分布情况。
对于游客路径的分析,还可以获取旅游客流对城市道路网的利用情况和对主要道路的依赖程度,明确道路定位。通过与居民出行路径对比,可以定性分析旅游客流对城市道路网的影响程度,进而优化城市旅游交通流的组织和管理。
路径分析需要捕获用户运动的特征,具体算法为:根据用户汇报记录的时间顺序,计算各用户位置间的平均速度,保留1m/s以上的数据,即对产生移动的记录进行位置迭代,统计得到人群路径的分布情况。本文的路径分析是对用户整体活动路径的叠加分析,其集聚点不止在道路上,也可以是商场、公园、景区等各个可能的活动点或途经点。路径分析以用户为单位,更关注对用户动态运动的捕捉而非静态停留的记录,用户路径不仅限于机动车的高速运动,也涵盖了非机动车和步行的活动路径。
居民的活动空间可以直接反映其对城市空间的使用情况和生活质量,可以间接反映一个城市的活力和布局,探究城市居民活动的时空特征一直是以大数据研究城市空间活动的热点问题。游客活动分布则与时间和旅游景点的分布密切相关,其可以直接反映各景点的受欢迎程度以及游客的游玩倾向性,对指导旅游资源开发、合理配置景区服务设施有现实意义。
为了解人群活动的时空分布规律,引入用户聚集地算法:按日筛选出特定日期,如工作日、周末、节假日等用户记录;计算其在各位置的停留时长,根据不同人群停留时长的实际分布确定其停留点的判定阈值;对于停留时长大于判定阈值的记录,若有用户出现的位置序列为A—B—A,那么位置A会有两次停留,分别计算并保存两次的停留时长;统计各位置各时段的去重人数。
此外,居民工作日出行主要以通勤、通学、公务等为出行目的,而购物、游憩、就医、文娱等活动的出行主要集中在非工作日。在明确用户居住地的前提下,可以对居民非工作日出行目的地进行分析,获取居民对于城市公共服务设施的使用情况和依赖程度。
居民非工作日出行目的地分析需要捕获居民出行距离属性,具体算法为:选取典型非工作日的数据,在用户聚集地算法的基础上,计算各居民用户当天在城市出现的位置与其家庭地距离,仅保留距离大于1km的记录,统计各位置的去重人数。
游客从哪来和怎么来一直是城市旅游业迫切想要了解和获取的信息。游客数量统计以及游客来源地分析对旅游业至关重要,能够提升旅游行业管理、服务能力及精细营销能力,对于城市大型对外交通设施的规划建设也有参考价值。
游客的进入门户是指游客进入城市的方式,一般包括高速公路收费站、码头、车站和机场等。分析游客进入门户可以得到城市海陆空客运的需求和比例,对调整客运结构、旅游客流集散、规划新客运枢纽等具有指导意义。
不同于以往通过运营商基站与手机之间的信令交互进而结合手机归属地信息获取用户属性的方式,SDK数据可以直接通过人群画像获取游客的来源地和进入门户,并得出统计结果。
此外,游客旅游时往往伴随各种各样的游玩行为。得益于SDK数据出色的人群画像能力,可以根据游客游玩期间对各种APP的使用情况获悉游客的部分行为特征,这是手机信令数据、互联网签到等数据难以做到的。以分析游客拍照行为为例,可以选取一定时间跨度的SDK数据,筛选保留游客用户的相机类APP汇报记录,通过去重和统计分析得到各位置的平均拍照人数。
实例分析
针对上文基于SDK数据的人群空间活动分析方法,以浙江省舟山市连续140天的SDK数据为例,验证各算法的可行性和合理性。舟山市位于浙江省东北部,是典型的海岛城市,其陆地面积1440km2;截至2018年末,常住人口117.3万人,城镇化率68.1%。舟山历史悠久,景观资源丰富,境内共拥有佛教文化景观、山海自然景观和海岛渔俗景观1000余处,其中普陀山景区为国家级风景名胜区,也是舟山市唯一的5A级旅游风景区。作为典型的旅游城市,舟山旅游人口比例突出,2018年旅游接待人数6321.4万人次,入境过夜人数17.7万人次。
在人群划分的基础上,分析居民和游客数据集的时间密度特征。全体用户平均每日汇报数据量54 条,每位居民平均每日汇报42 条,平均1.75 条/h;游客平均每日汇报63条,平均2.63条/h。
如下图所示,居民的小时数据量波动较小,游客的小时数据量波动较大。游客的数据量整体比居民高,说明游客对于手机APP的使用更加频繁。居民分布整体呈现两个峰值,分别为午间高峰12:00—13:00和晚间高峰20:00—21:00;游客除上述两个峰值外,高峰还出现在10:00—11:00。

居民和游客汇报数据量小时分布
综合140 天的汇报记录进行居民职住地分析。根据识别结果(见下图)可以看出,舟山市居民居住地主要分布在舟山本岛南岸,以定海区和普陀区为主,各镇中心、景区等地也有居住区分布;工作地与居住地在空间上呈现出相似的分布特征,但是与居住地相比,工作地分布更加集聚于本岛东南部的中心城区。

居民职住地分布
对比舟山市现状实际的社区和商业、办公区分布可以发现,上图居住地舟山岛南岸红色集聚区分别对应定海区的西山社区和东山社区,东南岸红色集聚区则对应普陀区的荷东社区;工作地则分别对应西部定海区商业中心、中部舟山市政府所在地和东南部普陀区滨海商业区。职住分析结果与舟山市实际职住分布基本吻合。
此外,根据职住地分布密集度,居住地分布较为分散,而工作地相对集中。街道尺度下这种分布特征更加明显,盐仓街道、勾山街道以及临城街道均存在相对集中的办公地点,而居住地分布相对分散(见下图)。

街道尺度下职住地分布
居民路径分析时段取早高峰7:00—9:00,游客路径分析时段为7:00—20:00。选择2018年4月共30天的数据,统计得到二者路径的分布情况(见下图)。

居民路径分析结果

游客路径分析结果
路径分析结果显示:居民的主要路径集中在生活区,以盐仓街道、临城街道和勾山街道为主。海天大道作为连接3个街道的主要道路,承担了主要的通勤交通流,是居民路径集中分布的路段。相比之下,329国道虽横贯东西,是舟山市对外联系的重要通道,但舟山市常住居民在其上却没有明显的路径分布特征。同时,在机场连接线、甬舟高速公路等对外道路上,市民的路径也较少。根据居民早高峰路径分布结果可以直观地看出,舟山市通勤交通横向通道以海天大道为主,纵向以临长路、231省道和定马线为主。
不同于居民的路径特征,游客游玩的目的性决定了其路径主要分布在城市干路、码头和景区上,其中甬舟高速公路、329国道、海天大道、沈家门港、蜈蚣峙码头、普陀山景区和南沙东沙景区尤为集中。329国道和海天大道是游客进入景区的主要道路,329国道作为高速公路和普陀山朱家尖景区的联系道路,游客对其需求要远大于居民;海天大道作为舟山市居民通勤干路的同时也是游客游览的重要通道,应做好流量疏解,必要时早晚高峰可限制外地牌照车辆行驶,同时引导游客经由329国道和北部环线进出景区,使通勤和旅游客流分离,减少过境交通影响。
选择2018年4月30日(五一假期)、2018年8月17日(星期五)、2018年8月18日(星期六)3天的记录分别对居民和游客活动进行时空特征分析。
根据居民用户停留时长的分布情况,选取累积频率95分位值对应的停留时长30min作为居民活动停留的判定阈值(见下图)。利用居民用户聚集地算法统计居民活动的时空分布特征(见下图)。

居民用户停留时长分布

居民活动时空分布
根据游客用户停留时长的分布情况,选取累积频率95分位值对应的停留时长20min作为游客活动停留的判定阈值(见下图)。利用游客用户聚集地算法统计游客活动的时空分布特征(见下图)。

游客用户停留时长分布

游客活动时空分布
根据时空分布结果,居民的活动空间集中分布在南部和东南部沿海区域,以盐仓、临城和勾山3个街道的分布最为密集,且全天各时段都表现出相似的分布特征,随时间变化幅度较小,体现了常住居民的时空活动规律。对比居民的居住地分布特征可以发现,舟山市居民的活动空间基本稳定在其居住地附近,说明居民的活动空间主要受其居住地制约,平均出行距离较短。
与居民相比,游客的活动空间随时间变化较大,凌晨基本没有活动分布,白天主要活动在普陀山、朱家尖等景区以及329国道、海天大道等道路上,夜晚活动空间分布减少,并且出景区、出舟山市道路上的分布明显增多,符合游客的出行特征。
根据居民活动的时空分布特征,居民非工作日的出行多集中在居住地附近,对景区的涉足较少,为探究舟山市居民非工作日出行目的地,进行居民出行目的地分析。
宏观来看,居民非工作日出行目的地仍然主要停留在居住地附近。而在街道尺度下,可以看出居民的非工作日目的地主要集中在凯虹广场、海中洲商业广场、东港港汇广场、舟山图书馆、舟山体育馆、舟山医院、普陀医院等商场和公共服务设施。相比之下,城市公园及景点对于居民的吸引力较弱。未来应加强城市公园的环境美化和品质提升,打造特色,丰富活动,提高公园的吸引力,降低公共空间的闲置率,提升活力。
1)游客来源地分析。
通过SDK 数据人群画像,可以直接获取游客的来源地并得出统计结果:舟山市游客主要来自长三角,尤以浙江省内为主,江浙沪游客约占70%。按城市统计,来源前三的城市分别为宁波市、上海市和杭州市,分别占14.8%,13.7%和9.8%,然后依次为苏州、阜阳、金华等城市(见下表)。
游客来源城市分布

2)游客进入门户分析。
舟山作为海岛城市,游客通过高速公路收费站、码头和机场三种途径进入。以2018年4月30日数据为例,将每个游客首次出现的门户位置算作该游客的进入门户。高速公路门户占82.7%,是游客进入舟山市的主要途径。通过前文对游客来源地的分析得知,舟山市的游客主要以省内游客为主,长远距离游客相对较少,由此必然会导致游客通过高速公路门户进入比例较高。
3)游客拍照地点分析。利用2018年4月1日—6月30日共3个月的数据,分析舟山市游客的拍照地点,获得分布结果(见下图)。游客的拍照地点主要以景区的各大景点为主,普陀山风景区作为著名景区吸引了大量游客驻足拍照,南海观音作为地标景点和网红景点,周边拍照点密集度最高。本文以SDK 数据为基础得到的各项分布结果相比其他研究更为细致,对职住地的分布可以精确到城市街区,对路径、目的地和活动点的分布可以定位到具体的商场、广场、医院、道路、景点等。此外,实例中对于用户拍照点的分布分析是其他LBS数据无法做到的。高精度的定位和多维度的画像正是SDK数据的优势所在。

游客拍照地点分布
写在最后
本文将SDK 数据应用于城市人群空间活动分析,以舟山市为例,针对城市居民和游客研究空间活动并进行对比分析。从职住分布、路径分布、活动时空分布等方面研究多元人群的空间活动特征,形成了以高精度定位数据洞察人群活动、探索城市空间的分析方法。
SDK数据作为大数据时代背景下一种新兴的数据源,可以为研究人群活动、城市空间等提供诸多便利。SDK庞大的数据量对数据处理能力要求很高,需要投入高成本搭建分布式集群并进行日常维护,在高性能基建的基础上,相关人员需掌握多种编程技能如Hiveql,Spark,Python,Java 等,高综合素质的人员配合高性能的基建才能支撑SDK数据助力交通分析,不断挖掘更大的价值。
《城市交通》2020年第4期刊载文章

点击“阅读原文”查看
“案例研究”栏目更多内容

2020103期
编辑 | 耿雪
审校 | 张宇
排版 | 耿雪
原文始发于微信公众号(城市交通):基于软件开发工具包(SDK)数据的人群空间活动分析