数据精英夏季特训营开车啦!
同时报名还可享更多优惠:
任选2套同报,再减200元!
任选3套同报,再减360元!
任选4套同报,再减520元!
任选5套同报,再减700元!
任选6套同报,再减900元!
(以上优惠不包括营5和营14)


项目名称:基于城市多源数据的海量轨迹分析关键技术研究
项目负责人:朱燕民
依托单位:上海交通大学
项目参与人:
沈艳艳 讲师 上海交通大学
冯珍妮 上海交通大学
李娟 上海交通大学
张博文 上海交通大学
徐亚南 上海交通大学
周纤 上海交通大学
程威宇 上海交通大学
刘兆洋 上海交通大学
姜晓婷 上海交通大学
随着移动感知技术、定位技术及移动互联网技术的不断发展和广泛应用,轨迹数据已经成为来源稳定且较易获取的一类重要大数据。轨迹数据蕴含移动个体、群体及城市动态的丰富信息,轨迹数据的分析具有重要的实际应用价值。现有的工作在多源数据融合能力、异构轨迹数据的统一存储、轨迹查询的并行化水平、轨迹语义获取方法等方面还存在较大不足。
针对以上不足,本项目拟开展四个方面的研究:
1)基于内存的异构轨迹数据统一存储及并行查询框架与系统,2)基于城市多源数据的运动建模及轨迹预测方法,3)基于城市多源数据的轨迹语义标注方法,4)基于异构轨迹数据流的地图更新方法与系统设计。申请人在轨迹数据获取、分析及应用的相关领域有良好的研究基础,依托上海市大数据技术与应用创新中心等研究基地,项目的成功开展将形成四项融合城市多源数据的轨迹数据分析关键技术,通过上海市港航发展研究中心等政府和企业平台,服务交通、保险及智慧城市等应用领域。
项目结题成果报告
以下研究成果内容摘自项目结题成果报告。该项目报告共计30页,关注城市数据派微信公众号,在微信公众号对话框中输入 2467,即可获得报告全文PDF的下载方式:
(1)主要研究内容
本项目的主要研究内容如下:
(A)基于内存的异构轨迹数据统一存储及并行查询系统研究
分析轨迹数据的特征,设计面向 OLAP 的、对轨迹长度不敏感的统一的存储结构。针对内存按字节寻址的特征,提出与块设备不同的性能优化目标。针对三种代表性轨迹查询,设计并行查询算法。针对GPU的高并发硬件特性,设计负载均衡的查询任务划分方法,分析轨迹数据的查询过程,设计基于GPU的并行查询任务执行方法。
(B)基于城市多源数据的个性化移动模型及轨迹预测方法研究
建立基于长短时记忆循环神经网络(LSTM)的个性化移动模型,提出基于LSTM 的未来轨迹预测方法。扩展基于LSTM的模型,融合城市多源轨迹数据建立更准确的个性化预测模型。
(C)基于城市多源数据的轨迹语义标注及语义轨迹频繁模式挖掘方法研究
设计精准高效的轨迹语义标注算法和语义频繁模式发现方法。通过融合外部的静态和动态的多源数据,对轨迹点进行语义标注;对标注好的语义轨迹进行语义轨迹频繁模式挖掘,为上层应用提供丰富的语义轨迹运动模式。
(D)基于异构轨迹的电子地图更新方法及系统设计
研究基于异构轨迹数据的电子地图更新方法及系统设计。研究基于城市多源数据、轨迹数据流量的道路状态识别方法。进一步研究基于轨迹流的道路连通性检测方法,更新电子地图道路的连通性信息。
(2)取得的主要研究进展、重要结果、关键数据等及其科学意义或应用前景
围绕项目任务书的研究目标及研究内容,本项目取得多项研究成果,如下图
所示。
图1:研究成果总体概览及成果间的关系图
下面重点介绍代表性的研究成果。
(A)设计了基于GPU的轨迹统一存储及并行查询关键技术
支持大规模轨迹数据的存储及查询技术是轨迹大数据分析的基础。与其他类型的数据相比,轨迹数据具有异构性强、长度差异大、多维度的特征,这使得基于范式的传统数据存储及查询性能较差,降低了上层应用的性能及用户体验。
针对轨迹存储和查询两大功能,项目组开发了基于GPU的轨迹统一存储及查询系统,分为存储子系统和查询子系统(如下图所示)。存储子系统将异构轨迹数据读入,经过轨迹压缩等预处理后,建立剪枝能力强、适用于区域查询和相识度查询的索引结构。查询子系统将上层应用的查询请求解析后,按一定规则将所有查询请求划分为若干个查询集。对于每一个查询集,查询子系统并行地通过索引构建与之对应的数据块。而后,这些查询集–数据块组合会并行地被 GPU处理,快速地得到该查询集对应的查询结果集合。最后,查询子系统将结果分别输出给发起请求的应用。
图 2:基于GPU的轨迹存储及查询系统结构图
项目组深入研究了基于 GPU 的对带文本轨迹数据查询加速问题,首先提出了一种通用的针对文本轨迹数据进行相似性连接的基线算法(如下图所示)。接着,在内存优化方面,设计出一种翻转的策略,充分利用GPU的共享内存,实现 GPU 内存的合并访问;在负载优化方面,提出了一种基于轮询的批处理调度算法,不仅实现了将整个计算任务划分为平衡的负载,而且可以同时解决内存不足的问题。通过针对这两个方面的优化策略,提高了GPU的利用率,大大加速了带文本轨迹的相似性连接计算。
图 3:基于 GPU 的带文本轨迹加速算法示意图
(B)提出了融合城市多源数据的轨迹个性化深度预测模型
轨迹预测是基于位置的服务的一个重要基础,根据精准的轨迹预测,可以为用户提供很多服务,如城市交通调度,避免拥堵;智能家居根据用户回家的具体时间调节家中的环境。
项目组提出了一种融合利用城市多源数据基于 LSTM 轨迹预测模型(如下图所示)。该模型通过融合路网的信息,一方面嵌入路段间的信息,另一方面入路段本身的信息,设计了路网感知的RA-LSTM模型,对未来的形式轨迹进行预测。通过实验对比,提出的预测模型比现有典型的预测模型有更高的预测精度。
图 4:融合路网的轨迹个性化深度预测模型
(C)开发了基于城市多源数据的轨迹语义标注及模式挖掘关键技术
传统的轨迹模式挖掘方法,只利用原始轨迹数据,从原始轨迹数据中抽取典型的轨迹模式,如频繁路径、周期性行为、典型行为和动作识别等。这样给出的模式虽然能够在一定程度上帮助理解用户(这里的用户通指产生轨迹的物体,如车辆、自行车、行人等)的内在行为模式,但是却不能够提供与轨迹相关的更具价值的语义信息。
项目组开发了基于城市多源数据的轨远语义标注关键技术(如下图所示),通过融合城市多源静态和动态数据,解决同地点、同时段存在的轨迹语义标注多义性问题,提高了轨迹语义标注的精度,向上提供有丰富语义信息的模式和关于用户轨迹运动规律的知识。
图 5:基于城市多源数据的轨迹语义标注及模式挖掘框架
(E)建立了融合群智数据和轨迹数据的时空数据预测模型
如何基千多源的城市数据和轨迹数据(通过群智感知等手段),对城市的时空数据进行推断和预测,具有重要的意义,典型的应用包括空气质量预测、城市交通流量预测、交通轨迹推断、电子地图自动更新等。
项目组通过借助与空气质量状况强相关的一些卫星遥感数据和地面的城市数据,来构建模型(如下图所示),提高推断的准确性。提出了一个两阶段的细粒度空气质量推断方法。在第一阶段,使用两个前向神经网络依据遥感数据和天气数据分别作为推断模型和预测模型,来推断和预测一些地点的空气质量状况。该阶段能够大大缓解空气质量数据的稀疏性。第二阶段,空气监测站的记录数据和第一阶段估计的空气质量数据被放入一个三维的张量中。因为卫星数据的不完整性,张量中的空气质量数据也还不是完整的。项目组使用张量分解模型,对空气质量状况张量分解,然后将其补全。基于一个真实的数据集,实验结果表明项目组提出的空气质量推断方法,要显著优于一些最新的方法。
图6:多模态数据融合的时空数据推断模型结构图
交通流量预测作为智能交通系统中的重要部分,可以帮助交通管理者更好地规划交通资源,给予出行者路径规划数据支持。随着近年来大数据技术的发展类似“滴滴出行”这类网约车公司掌握了海量的轨迹数据,为交通预测问题提供了数据支持。项目提出了一种新的模型(如下图所示),称为建模局部和全局流量聚集的时空网络(LGSTN),用于预测城市基于路网的交通流量。首先构造时间相关的流量转移矩阵,以捕捉相邻路段间的动态局部空间相关性,并使用基于空间域的图卷积来建模局部交通流量聚集。然后,提出了一种滞后门控的长短期记忆网络(LG-LSTM)来建模全局交通流量聚集。同时,还对交通数据的周期性进行建模,通过参数矩阵将周期性建模的输出与全局流量聚集的输出相融合,来对交通流量进行预测。在真实的数据集上的实验表明,提出的LGSTN预测效果优于代表性的交通流量预测方法。
图 7:基于城市多源数据的交通流量预测模型结构图
(D)提出了基于用户交互轨迹的用户建模及预测技术
用户轨迹数据中的一大类型是用户交互轨迹数据,如何利用交互轨迹,对用户偏好进行建模,对未来的偏好或交互动作做出预测,具有重要的意义。用户在日常生活中交互轨迹,记录了用户与交互物品交互情况,同时也反应出了用户对交互物品的偏好情况和用户使用交互物品的行为模式。这两种信息对于提升估计用户的交互物品的偏好程度很有帮助。基于交互物品的使用记录数据,挖掘偏好信息和模式信息,用于精准推荐等。
……
还有更多成果内容,详见项目结题成果报告。该项目报告共计30页,关注城市数据派微信公众号,在微信公众号对话框中输入2467,即可获得报告全文PDF的下载方式。
原文始发于微信公众号(城市数据派):【项目成果推荐】基于城市多源数据的海量轨迹分析关键技术有哪些?丨城市数据派