规划问道

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派



会议介绍
考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派
39th IEEE International Conference on Data Engineering (第39届IEEE国际数据工程大会),将于2023年4月3日至7日在美国加利福尼亚州召开。ICDE是数据库领域最权威的国际顶级学术会议之一,是中国计算机学会(CCF)推荐的A类国际会议,不久之前,参会论文评审结果已经揭晓,BIGSCITY实验室有1篇论文被录用。


研究介绍
考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派
轨迹表征学习是时空数据分析和管理的一个强大工具。轨迹表征学习旨在将复杂的原始轨迹转换为低维表示向量,可应用于各种下游任务,如轨迹分类、聚类和相似性计算等。现有的轨迹表征学习工作通常将轨迹视为普通的序列数据,而一些重要的时空特征,如时间规律性和旅行语义,并没有被充分开发。为了填补这一空白,我们提出了一个新颖的自监督轨迹表示学习框架,START,该框架充分考虑了轨迹数据中的时间规律和旅行语义。提出的方法由两个阶段组成。

第一阶段是轨迹模式增强图注意网络(TPE-GAT),它将路网特征和旅行语义转换为路段的表示向量。第二阶段是时间感知轨迹编码器(TAT-Enc),它将同一轨迹中的路段表示向量编码为轨迹表示向量,同时将时间规律性与轨迹表示相结合。此外,我们还设计了两个自我监督的任务,即连续掩码轨迹恢复和轨迹对比学习任务,以将轨迹的时空特征引入START框架的训练过程。

通过对三个下游任务的两个大规模真实世界数据集的广泛实验,验证了所提方法的有效性。实验还表明,我们的方法可以在不同的城市之间转移,以适应异质的轨迹数据集。

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

论文作者:姜佳伟,潘达岩,任厚兴,蒋笑寒,李超副教授,王静远教授
通讯作者:王静远教授
作者单位:北京航空航天大学
论文链接:
https://arxiv.org/abs/2211.09510
代码链接:
https://github.com/aptx1231/start


研究背景
考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派
随着GPS设备的快速发展,城市中可以收集到大量的轨迹数据。轨迹数据的分析和管理,如基于轨迹的预测、交通预测、城市危险品管理和轨迹相似度计算,已经成为数据工程界的一个热门话题。传统的轨迹数据分析研究需要人工特征工程和针对特定任务的独特模型,这使得它们难以转移到不同的应用中去。为了提高轨迹数据分析工具的通用性,近年来出现了轨迹表征学习任务。轨迹表征学习任务旨在将原始轨迹转化为通用的低维表征向量,可以应用于各种下游任务,而不是局限于某个特定任务。

在文献中,早期的TRL研究直接使用一般的序列到序列模型与轨迹重构任务来生成轨迹表示向量。近年来,人们提出了一些两阶段的方法来学习多个下游任务的通用轨迹表示。这些方法首先采用图表示学习将静态路网的路段转换为表示向量,然后使用具有自我监督任务的顺序深度学习模型将同一轨迹中的道路表示向量转换为轨迹表示向量。但是,轨迹数据包含相当复杂的时空语义信息。许多关键的时空特征和语义信息对下游任务是有帮助的,但现有的工作仍然没有充分地加以利用。

在本文中,我们提出了一个新的自监督的轨迹表示学习框架,该框架使用两阶段的学习方法将时间规律性和旅行语义整合到轨迹表征学习中。另外,设计了两个自我监督的任务来训练模型,与传统的自监督任务如序列重建和MLM相比,所提出的任务充分考虑了轨迹的时空特征。通过对三个下游任务的两个大规模数据集的广泛实验,验证了所提方法的有效性。


模型架构
考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派
框架结构包括一个轨迹模式增强的图注意层(TPE-GAT)和一个时间感知的轨迹编码器层(TAT-Enc)以及两个自我监督的任务。

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

本文使用图神经网络来捕捉路段特征和路网结构的信息以学习路段的表征。考虑到道路网络是一个有向图,我们选择了图注意网络(GAT)[1],因为它可以通过计算节点对之间的注意权重来动态地给邻接节点分配权重。然而,标准的GAT不能捕捉轨迹中的旅行模式。为了解决这个问题,我们提出了一个轨迹模式增强的图注意网络,即TPE-GAT,通过引入从历史数据中计算出的路段之间的转移概率矩阵来模拟路段的访问频率,扩展了GAT的注意权重计算。TPE-GAT层考虑了路段之间由于路网结构的静态连接和由于行人的流动性造成的动态连接。


 

为了对轨迹中道路之间的共现关系进行建模,我们使用Transformer编码器[2],因为它可以从道路的左右两边捕捉到轨迹的上下文信息,实现道路之间的充分互动。此外,我们扩展了Transformer编码器,并提出了一个时间感知轨迹编码器层,以纳入城市轨迹的时间规律性,它由两个模块组成。第一个是轨迹时间模式提取模块,使用两个时间嵌入来捕捉城市交通的周期模式。第二个是时间间隔感知的自注意力模块,将衡量轨迹中路段间的影响大小的自适应时间间隔矩阵融合到自注意力运算中,明确地模拟轨迹中路段之间不规则的时间间隔反应的道路动态的拥堵程度。

 

考虑到轨迹的时空特征,我们设计了两个不针对具体下游任务的自监督任务来训练模型并学习通用表征。

(1)连续掩码预测:轨迹是一串互相邻接的路段的序列,如果我们独立地对路段进行掩码,模型可以很容易地根据道路网络中的上游和下游路段推断出被掩码的路段。因此,我们提出了连续掩码法,在轨迹中选择若干个连续子序列进行掩码预测,使用被掩码的道路真实值和预测值之间的交叉熵损失作为优化目标。

 

(2)轨迹对比学习:对比学习的关键问题是正负样本的构造。考虑到轨迹的时空特征,我们探索了四种轨迹的数据增强策略来产生对比学习的视图,包括轨迹裁剪、时间偏移、轨迹掩码、Dropout,采用归一化的温度标度交叉熵损失函数[3],并使用批次内的负样本作为对比目标。

 

用上述两个自我监督的任务对提出的模型进行预训练。


实验
考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派
下游任务
出行时间预测:这项任务的目的是在给定的道路序列和出发时间下,估计从出发地到目的地的旅行时间。
轨迹分类:这项任务的目的是根据特定的标签对轨迹进行分类,如是否载客、司机身份、交通工具等。
轨迹相似度计算和搜索:给定一个查询轨迹Query,模型的目标是从一个大规模轨迹数据库中找出最相似的轨迹。

数据集
我们在实验中使用了两个真实世界的大规模轨迹数据集,分别来自北京和波尔图的出租车轨迹,统计信息如下:

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

总体性能
在这两个真实世界的数据集上,我们的START在这三个下游任务的所有指标上都达到了最佳性能。

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

预训练效果验证
我们通过两种方式验证我们设计的两个预训练任务的有效性。

一方面实验表明,相同的数据量下,预训练后的模型效果比不预训练的模型有显著提升,即预训练可以有效减少训练数据的使用。

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

另一方面实验表明,在大数据集上预训练的模型转移到另一个小数据集上进行微调,即使是异质的道路网络数据集,预训练也可以提升小数据集上模型的性能,这有助于解决应用中训练数据不足的问题。

考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派


总结
考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派
在研究提出了一种两阶段的轨迹表征学习方法,它将时间规律性和旅行语义纳入通用轨迹表征学习中。此外,我们设计了两个自监督的任务来训练我们的模型,它充分考虑了轨迹的时空特征。在三个下游任务的两个大规模数据集上进行的广泛实验证实,与最先进的基线相比,我们提出的框架性能优越。实验结果还表明,我们的方法可以在异质轨迹数据集之间迁移,这对于解决数据不足的问题非常有用。

参考文献

[1] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.

[2]  Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[3] Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597-1607.

如果你觉得本文有用的话,请引用:

@inproceedings{jiang2023start,

  title={Self-supervised Trajectory Representation Learning with Temporal Regularities and Travel Semantics},

  author={Jiawei Jiang and Dayan Pan and Houxing Ren and Xiaohan Jiang and Chao Li and Jingyuan Wang},

  booktitle={2023 IEEE 39th international conference on data engineering (ICDE)},

  year={2023},

  organization={IEEE}

}

Jiawei Jiang and Dayan Pan and Houxing Ren and Xiaohan Jiang and Chao Li and Jingyuan Wang. 2023. Self-supervised Trajectory Representation Learning with Temporal Regularities and Travel Semantics. In 2023 IEEE 39th international conference on data engineering (ICDE). IEEE


最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~

原文始发于微信公众号(城市数据派):考虑时间规律和旅行语义的轨迹表征学习(论文及代码分享)丨城市数据派

赞(0)