规划问道

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派


内容导读

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派

随着智能设备和移动应用程序的日益普及,用户可以在社交媒体和大量移动应用程序分享有关其位置、时间和活动的丰富信息。这种信息为各种业务分析,推荐系统和商业智能的发展提供了机会,使得在个体层面上发掘用户的行为模式成为可能。

本研究在考虑时间动态特性的基础上改进了经典的哈夫模型(Huff model),提出了新的T-Huff模型。经典哈夫模型被广泛应用于预测城市内特定商店或商圈的吸引力范围和规模。它的主要思想是商圈规模的大小(及消费者前往某一购物场所的概率)主要取决于商店/商圈对于消费者的吸引力以及两者间距离所造成的阻力。

在实际生活中,商圈的规模具有动态变化的特点,存在各种潜在因素的影响,如季节性消费、营销策略、围绕商店的地缘社会经济变化或个体的动态行为。值得注意的是,顾客对不同类型的购物场所可能会表现出不同的时间访问偏好,从而导致其商圈规模在不同的时间段内会产生动态变化。图1展示了洛杉矶市五家同品牌连锁超市在一周内各个时段的访问概率,从此图可以看出,即使对于同一品牌连锁超市,不同门店的消费者访问概率也存在着时间上的差异。

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
图1  洛杉矶市五家同品牌连锁超市在一周内的访问概率(时间序列颜色与地图匹配)

本研究提出了一个基于时间感知的动态哈夫模型T-Huff(模型具体公式和参数请参考原文),并使用基于移动应用程序定位生成的大规模商铺访问数据校准该模型的参数用于预测。主要内容如下:

(1)动态T-Huff模型能够较准确预测某一社区每小时的商店访问概率,研究选取了生活超市和百货商场两种类别的商铺,试图发掘访问不同类型商铺的模式特点;

(2)研究利用美国十大城市的大规模个体商铺位置访问数据,同时使用粒子群优化算法校准模型参数,发现T-Huff模型在预测商铺访问概率时优于传统静态哈夫模型;

(3)研发发现社区和商铺距离、社区总人口和社会经济变量(例如,中位数家庭收入、种族多样性)会对不同类别和品牌的商铺访问产生不同的影响。商铺访问模式同样也存在城市区域间的差异性。


数据和研究区域
基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
研究从数据合作伙伴SafeGraph的商圈位置大数据库中收集了360万条商铺访问信息。对于每个地点,数据记录了商店访问数量以其访问消费者的来源社区, 并以此建立空间访问流网络。例如,图2显示了洛杉矶市的5个Whole Foods商店(a)和14个Ross商店(b)的空间访客流图。

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
(a) Whole Foods商店的空间访问网络

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
(b) Ross Store商店的空间访问网络
图2  洛杉矶市两家不同品牌连锁商店的空间访问网络图


分析结果
基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
访问距离分布

图3 展示了顾客从家到所有商店的中值距离分布。城市间访问距离的概率密度分布呈现出不同的长尾分布。从顾客家到杂货超市的中间距离平均值大约是7.8公里。同时,中值距离在不同城市的分布也有着差异性。此外,各城市的访问中值距离密度分布都存在距离衰减现象。在所有城市里,生活超市的访问距离衰减斜率比百货商场的访问距离要陡,说明花费长距离路程去生活超市的消费者比花费长距离去百货商场购物的要少得多。

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
图3 美国十大城市消费者访问商铺中值距离的分布

不同类型商铺比较和地域差异分析
我们针对十大城市中门店最多的前三个连锁品牌设计了多组对比实验。以洛杉矶的Whole Foods超市为例,每个门店超市的吸引力都是通过三个月的总访问量来估计的,并分别对每个品牌的店铺进行模型参数校准,通过观察到的店铺访问数据,找到最能反映吸引力和距离对特定品牌的影响的最佳参数组合。总的来说,T-Huff模型针对实际访问量的拟合结果对比传统静态Huff模型有更高的相关性。

图4显示了来自传统Huff模型预测的市场份额和来自实际商铺访问数据集的市场份额占比图。这里的市场份额指的是来自各社区的顾客访问该商店的比例。对于每个社区,它都有对应于每个商店的访问概率,每个社区的色调表示该社区的人最可能访问的商店(颜色与图1一致),颜色的饱和度表示访问概率的大小。通过比较两张地图,可以发现商圈的空间分布非常相似,表明预测和实际店铺访问概率有很高的相关性。

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
(a)传统模型的预测访问概率

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
(b)来自收集数据的访问概率
图4 传统模型预测结果与实际访问数据市场份额比较

图5显示了从动态Huff模型得到的五个Whole Foods商店在两个不同时间窗口内的预测概率和实际访问概率的差异地图。其中红色部分表示T-Huff模型预测的访问概率高于实际,绿色部分表明预测概率低于实际概率。总体来说,差异概率的数量级非常小,总体的预测精度较高。

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
(a) 周日下午3-4点

基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
(b) 周一中午11-12点
图5 不同时间窗口预测访问概率差异图

我们在美国十大城市对三种品牌的商铺(Whole Foods, Trader Joe’s和Ross Stores)使用粒子群优化算法进行了同样的模型参数校准,并进行了三种类型的比较:
(1)比较多种Huff模型在同一商店访客量预测的性能; 
(2)比较模型对于三个品牌商铺的不同表现;
(3)比较不同城市同类型商铺访问模式之间是否存在区域差异。

从结果来看,M-Huff均值模型的相关性远远低于其他三个模型,这说明访客的时间动态变化性不能被忽略或简单地认为是均匀分布的。T-Huff模型和A-Huff模型的相关性均高于传统Huff模型,说明考虑时间变化的重要性,有助于提高模型预测精度。

对于每个城市中的每个特定类型的商铺,优化过程能够在四个模型中找到预测最优的参数,反映商铺吸引力和距离对城市中每个品牌的影响。一般来说,较大的距离衰减系数β意味着活动受距离增加的影响更大,人们不愿意进行更远距离的访问。我们使用每个城市的平均β值来反映距离对城市的影响。β值最小的城市是纽约、圣地亚哥、费城和芝加哥。这些城市都拥有成熟的城市公交系统以及发达的交通路网,这表明,在现代多模式交通的支持下,城市内部的空间互动会增多,人们在空间上的活动联系也会更加紧密,出行百货购物选择受距离影响较小。 

此外,顾客访问百货商店的距离衰减斜率比访问生活超市的距离衰减斜率更平滑,说明距离对访问生活超市的影响更大。从分析结果来看,大多数城市显示了同样的趋势,即当人们去生活超市时,距离扮演了更重要的角色。这与日常经验相对应,打酱油会去更近的商店,因为这些生活超市和商店的日常商品一般都是相似的,能够满足基本需求。因此,距离成为决定访问哪家商店时的主要考虑因素。而不同的百货商场通常拥有不同类型的商店和不同品牌商品,即使花费的时间和距离更多,人们根据个人偏好会更愿意去某家特定的百货商店购买某种特定的商品。

商业位置分析
除了商店的吸引力和距离,我们还引入更多的社会经济属性变量(包括人口年龄中位数,家庭收入中位数、社区种族多样性)进行多元线性回归分析,以此发现其他潜在因素对于商店访问模式的影响。实验表明,通过总访问次数(吸引力)和家庭收入中位数衡量的商店吸引力是驱动消费者访问三个品牌商店的重要积极因素。距离对Whole Foods和Ross Stores都有很大的负面影响,但对Trader Joe 却影响较小。社区种族多样性对Ross和 Trader Joe的商店访问量有显著的积极影响。社区人群的中位数年龄并没有发挥统计显著的作用。


备注
基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
研究使用的实验数据和用Python开发的动态哈夫模型(T-Huff)已经在Github上开源共享:https://github.com/GeoDS/T-Huff,欢迎下载使用交流。

致谢
基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
GeoDS@UW-Madison实验室感谢数据合作商SafeGraph和企业合作方Wework对本研究的资助。

参考文献
基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派
Yunlei Liang, Song Gao, Yuxin Cai, Natasha Zhang Foutz, and Lei Wu. (2020) Calibrating the dynamic Huff model for business analysis using location big data. Transactions in GIS, 24(3), 681-703.


最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~
基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派

原文始发于微信公众号(城市数据派):基于访客量大数据和动态哈夫模型的位置商业智能分析丨城市数据派

赞(0)