
数据精英年终大冲刺开车啦!
同时报名还可享更多优惠:
任选2套同报,再减200元!
任选3套同报,再减360元!
任选4套同报,再减520元!
任选5套同报,再减700元!
任选6套同报,再减900元!


项目结题摘要

移动轨迹数据是地理时空大数据的重要组成部分,同样存在时空分布规律与尺度特征,且其海量化、多元化、实时化、网络化等特征,使得数据处理、传输与分析更加需要自动综合与尺度变换的支持。
本课题以GPS轨迹为对象,采用时空与语义信息融合的手段,通过引入移动轨迹的地理环境,探讨移动轨迹时空、语义及其尺度特征,建立轨迹的语义提取方法,在此基础上提出了移动轨迹分段综合方法与自适应综合方法,从而为移动轨迹大数据分析与挖掘提供基础支撑。
具体研究包括:
(1)研究了轨迹的时间尺度、空间尺度、语义尺度特征,并建立了其空间尺度与时间尺度之间的转换关系式以及讨论了语义尺度与时空尺度之间的一致性关系;
(2)扩展了轨迹语义提取方法,包括基于密度聚类的多尺度轨迹停留段提取与语义匹配方法和顾及城市复杂路网的轨迹移动段地图匹配方法;
(3)提出了基于特征点排队的轨迹综合方法,通过时空-语义一体化来表达移动轨迹,以轨迹点为评价对象,分别评价轨迹点的时空特征和路网语义特征,从而建立轨迹点的时空特征队列以及顾及路网语义的时空特征队列,以此综合轨迹,并通过不同时间尺度的出租车轨迹数据进行验证,表明本方法在算法效率、综合精度以及路网特征点保持上较之前方法都有不同程度的提高;
(4)提出了基于语义约束的轨迹分段综合方法,通过考虑移动轨迹隐含着路网语义、停留地点语义等各种地理空间环境语义信息,设计了轨迹的语义综合方法、轨迹停留段的综合方法和轨迹移动段的综合方法,并通过个人GPS轨迹数据试验验证,该综合方法在保持较好的时空精度的同时还能提供较大的压缩率,并且也可以得到多尺度语义信息,能适用于不同场景的分析需求。
本课题执行期间发表期刊论文4篇,其中SCI2篇;参加国际会议2次并发表会议论文1篇;培养博士研究生1人,已毕业。本项目的研究成果对移动轨迹自动综合提供理论、方法与技术支撑。
项目结题成果报告
以下研究成果内容摘自项目结题成果报告。该项目报告共计44页,关注城市数据派微信公众号,在微信公众号对话框中输入 241111,即可获得报告全文PDF的下载方式:
(1)主要研究内容。
①移动轨迹的尺度特征
A 时间尺度
轨迹时间尺度是通过时间粒度或时间间隔来表示,即是轨迹数据采集的时间频率。比如轨迹数据按照5秒采集一个轨迹点,则该轨迹数据的时间尺度为5秒。虽然轨迹数据采样方式包括等时间间隔采样和等距离采样,但由于等时间间隔采样的便捷性和可操作性,绝大多数轨迹数据采集方式都采用前者。因此,轨迹数据的时间尺度是决定轨迹数据详细程度的决定性因素
B 空间尺度轨迹
作为线状地理要素一种,其空间尺度特征仍然是通过形态来表达。轨迹数据往往与路网数据具有一定的关系,而路网数据的空间尺度往往通过一定的地图比例尺来表示。然而,由于轨迹数据并不是由测绘部门按照一定比例测量而来的,轨迹数据的地图比例尺也并不与路网数据的比例尺一致,因此,并不能以路网的地图比例尺直接代替轨迹数据的比例尺。
从空间尺度的内涵上看,空间尺度代表了数据在空间位置上的详细程度,而轨迹数据空间位置的详细程度并不由路网决定,而是由轨迹数据的采样间隔决定和采样误差共同决定的。其中,采样误差时候数据采集设备所决定的。因此,可以建立轨迹数据的比例尺(空间尺度)和时间间隔(时间尺度)之间的关系。C 时间尺度与空间尺度的关系对于任意空间对象来说,其空间尺度表达方式有地图比例尺和空间分辨率两种,两者的基本含义都可简化为地图大小与地表实际大小的比值。
因此,设单位像素大小(栅格边长)为x,s为地图比例尺,sr为空间分辨率,则地图比例尺和空间分辨率的关系如公式(1)所示:
辨率并不相等。那么,以哪个作为轨迹的空间分辨率呢?从轨迹数据的空间形态看,当轨迹形态复杂时,往往是运动缓慢、速度较低时候,为了能表达最为复杂的形态,因此采用速度最慢的空间分辨率,即最小空间分辨率来表示。因此,将公式(4)代入公式(3),得到公式(5):
D 轨迹的语义尺度
从数据的产生方式看,轨迹数据依赖于四个部分:移动对象,地理空间环境,移动方式,采集设备。因此,可以从这个角度将轨迹的语义分类上述四个类别:即移动对象的语义信息、地理空间环境语义信息、采集设备语义信息和移动方式语义信息。其中,地理空间环境语义信息是指轨迹相关地理空间环境语义信息,也称为地理空间上下文语义信息。
从轨迹语义尺度角度看,移动对象语义、采集设备语义和移动方式语义并不具备尺度信息,此处的语义信息应该指的轨迹所处的地理环境语义信息。
由于轨迹的动态变化特征,从而使得轨迹语义往往需要分段进行表达,根据语义表达的需要,将轨迹分为停留段和移动段。因此,不同的轨迹停留段所对应的空间位置(地点)语义单元就构成了轨迹语义尺度。譬如说,一条旅游轨迹是从滁州市到南京市再回到滁州,该条轨迹的语义尺度是以城市为单元,表达城市间的旅游轨迹:又比如将上述轨迹描述为从滁州市火车站出发,先到达南京火车站,然后依次经历动物园、夫子庙、中山陵、玄武湖最后回到滁州站,则该条轨迹的语义尺度是以区域单位(景区、车站)为单元,该语义尺度比城市粒度表达更为详细。
因此,划分轨迹的语义尺度,主要是建立地理空间环境中区域单位的尺度性找到轨迹停留特征所对应的区域单元,从而构建轨迹语义的多种尺度。从整体上看,轨迹语义尺度可划分为全球尺度、国家(地区)尺度、城市尺度三类。
全球尺度:以国家为语义粒度,构成轨迹的语义结点为国家。该尺度下是以国家为最小单元,该尺度通常描述全球性现象的移动现象,比如台风移动轨迹、鸟类迁徙轨迹、全球人口迁徙轨迹以及国际旅游轨迹等等。国家(地区)尺度:以城市为语义粒度,构成轨迹的预计结点为城市,该度又称之为城市间尺度。该尺度下是以城市为最小单元,通过描述一个国家或省区域范围内的移动现象,比如全国春运人口迁徙轨迹、拐卖人口轨迹、国内旅游轨迹等等。如图2(a)所示,为一个省内的旅游轨迹,该轨迹是由南京市一扬州市-苏州市一南京市组成的。
城市尺度:城市尺度通常描述城市内部的移动现象,该轨迹是活动在城市内部。以单位等区域单位为语义粒度。
-
城市分区粒度:
城市分区粒度通常以城市的行政区划为单元,比如城市的行政分区或功能分区,该尺度层次并非所有的城市都具有,对于上规模的大城市该层会比较重要,而对于一些县城来说,该层可以忽略不计。
-
单位粒度:
单位粒度是城市尺度中最基本的一个层次,最为重要的一个层次,它是以一系列的单位区域为单元,单位粒度的表达方式通常是采用区域(面状对象)。如图2(b)所示,为该游客在南京市主要景点(红山动物园一夫子庙-中山陵)的旅游轨迹。
-
建筑物/POI粒度:
建筑物粒度是城市尺度中表达最细微的一个语义层次它的基本组成的单元为一幢幢独立的建筑物,通常采用点要素表达。因此该层也称为POI粒度层,其内容不仅包括建筑物,也包括可能存在的系列兴趣点。如图2(c)所示,为游客在红山动物园的游玩轨迹。
E 语义尺度与时空尺度的关系
从地理数据的表达上看,地理数据的语义尺度显然与空间尺度存在正相关性即空间尺度大,其语义尺度也相应要大。地理信息语义尺度与时间、空间尺度有着密切的联系,空间结构与语义一致性是空间数据表达的内在要求,语义尺度的刻画受到时间和空间尺度的制约。一般来讲,在空间上表达的越细微,地理实体及属性类型也可以表达得越详细,其语义粒度越小,语义分辨率也越高。
同样,在电子地图表达上,也能体现相应的语义尺度与空间尺度关系。在我国电子地图中,其空间尺度采用比例尺表示,但同时设置一个由国家、省、市以及街道等行政区域单元组成的语义尺度,其中一种语义尺度对应于一定的比例尺范围。当然,语义尺度与空间比例尺的对应关系受到行政区划大小的影响,难以构建绝对的对应关系,但是表明了语义尺度与空间尺度的一致性。
移动轨迹数据作为一种包含时间、空间信息的时空数据,同时其语义信息也是来自于地理环境语义,因此轨迹的语义尺度与空间尺度之间的关系既符合前述致性关系,同时轨迹的语义尺度同时与时空尺度存在一致性关系。
对于轨迹来说,其语义尺度同样和空间尺度存在如上的一致性关系,并且与之不同的是,轨迹语义尺度与轨迹时间尺度、空间尺度同时存在一致性关系。如前论述的,轨迹空间尺度与时间尺度存在一致性关系。轨迹的空间尺度是依赖于时间尺度的,而语义尺度又是和空间尺度一致的,因此,轨迹的语义尺度也同样依赖于时间尺度。事实上,这也很好理解,如果想要表达诸如道路交叉口、加油站等 POI点这一尺度下的语义信息,由于其停留时间很短,因此,只有当时间粒度足够小的时候,才能表达该语义尺度下的信息;而如果要表达景区或城市等语义信息,对时间粒度的要求就宽松的多
② 移动轨迹的语义特征提取
A 基于 OPTICS的轨迹停留特征提取
由于轨迹序列点并非一系列离散的点集合,而由一个有序的点串集合,因此其点间距离和核心距离度量方法与常规的 OPTICS算法有所不同,并由此带来其相应的轨迹点序列生成算法也有所不同。根据OPTICS聚类方法原理,其主要步骤包括距离定义、聚类点序列生成、聚类结构生成三个方面。
a 距离定义
轨迹点间距离:是指轨迹两点之间的系列点串构成的多段线长度之和。轨迹核心距离:是指以核心点p为中心,以距离阈值s为邻域,包含MinPts个轨迹点的最小领域半径。然而并当轨迹点之间的时间间隔并不一致时,轨迹点的计数需要改进。
b 轨迹的聚类点序列生成
由于轨迹点串是一个序列集合,因此,轨迹的聚类点序列不再需要重新排序而是可以直接以轨迹点的原始序列为序,从而并不需要对核心点ε领域内所有点的可达距离进行排序。另外,由于轨迹点是有序的,根据距离的计算公式,每个轨迹点到其它点的最短距离为该点到相邻两点的距离之一,这说明一个点的可达距离仅仅需要计算一次即可。此外,在轨迹的聚类点序列生成中,核心点的领域检索同样并不需要对所有点进行检索判断,仅仅需要按照序列依次往后搜索直至不满足条件(点不在ε领域内或点数大于等于MinPts)为止。轨迹点可达距离排序结果如图4所示。
先后顺序。因此,任意两个相邻聚类结果的点串范围之间存在以下两种关系:
-
相离关系:是指相邻两个聚类结果在其点串范围上是不存在相交的,是完全相离的,这表示该两个聚类是两个独立的聚类的结果。如图5所示,聚类 C1 和 C2 的关系。
-
包含关系:一个聚类结果被另一个所包含。如图5所示,聚类C1和C4,聚类 C2 和 C3。
在包含关系中,分为两种情况:当一个聚类结果被另一个所包含,且另一个不包含其它聚类结果时,如聚类C2和C3,此时两个聚类应该是属于同一个停留特征;当一个聚类结果被另一个所包含,且另一个包含其它聚类结果时,如聚类C1和C4。
d 实验分析
实验数据采用一份采样间隔为5秒的轨迹数据,该数据采集时间从2017-11-11 09:11:44 到 2017-11-12 14:57:32,总共历时 1天5 小时 45 分 48 秒,该数据共包含2条分段轨迹,有轨迹点6106个,轨迹总长度为66404米。
考虑到最详细尺度的停留段为景点尺度,将其停留段的最小时间范围设置为5 min,另外考虑步行游览速度不应超过1m/s,由此计算距离值为300m;而轨迹的采样间隔为5s,因此计算的点数阈值为60。
通过上述阈值,生成的聚类点序列结果如图6中图(b)所示,该图为轨迹聚类点序列与轨迹停留段对照图,从轨迹聚类点序列图上可以看出,其与轨迹点序列的停留段情况基本吻合一致,不论是从粗略尺度的停留段情况(图a左图),还是详细尺度的停留段情况(图a右图)
B 移动段语义匹配
道路语义匹配的核心是对轨迹进行地图匹配过程,只不过在匹配时并不需要将轨迹点纠正道地图路网上,只需获取对应道路即可。地图匹配已经获得诸多研究,提出各类地图匹配算法。本研究针对路口匹配经常出现错误的情况,提出一种路口分段匹配方法。该方法将轨迹分为路口轨迹段和非路口轨迹点段,其中非路口轨迹采用现有方法,路口轨迹段采用以下方法。
a 路口轨迹点匹配情况分类
当前,所需要的是对路口轨迹点匹配处理,很显然,路口轨迹点应该匹配的位置不外乎三个位置:一是入路段;二是出路段;三是路口。因此,只要确定了轨迹在路口的入路段和出路段,即可根据路口轨迹点与路口及路口关联路段之间的关系进行分类,将它们之间的关系分为以下四类:
①轨迹点位于入路段和出路段所成夹角之间,如图7所示,点。
②轨迹点位于入路段和除出路段之外的其它路段所成夹角之间,如图7所示点。
③轨迹点位于出路段和除入路段之外的其它路段所成夹角之间,如图7所示点。
④轨迹点位于除入路段、出路段之外的其它两条路段所成夹角之间,如图7所示,点。
上述四类轨迹点涵盖了所有轨迹点路口及路段之间的关系,根据不同的位置关系,即可匹配到不同的路段或路口。
……
还有更多成果内容,详见项目结题成果报告。该项目报告共计44页,关注城市数据派微信公众号,在微信公众号对话框中输入241111,即可获得报告全文PDF的下载方式。
原文始发于微信公众号(城市数据派):【移动轨迹大数据】基于时空-语义融合的移动轨迹自动综合方法研究丨城市数据派