数据精英夏季特训营开车啦!
同时报名还可享更多优惠:
任选2套同报,再减200元!
任选3套同报,再减360元!
任选4套同报,再减520元!
任选5套同报,再减700元!
任选6套同报,再减900元!
(以上优惠不包括营5和营14)


项目名称:个体-群体时空活动轨迹挖掘方法研究
项目负责人:郭茂祖
依托单位:北京建筑大学
项目参与人:
衣俊艳 副教授 北京建筑大学
张蕾 副教授 北京建筑大学
赵玲玲 讲师 哈尔滨工业大学
张德 讲师 北京建筑大学
刘彩虹 副研究馆员 北京建筑大学
余冬华 哈尔滨工业大学
陆剑锋 北京建筑大学
王鹏跃 北京建筑大学
梁书彤 北京建筑大学
个体和群体的时空活动挖掘对于提升城市管理服务能力有重要意义,本项目创新性地构建了个体、群体时空活动的识别、建模、表示、分析和应用方法系统,围绕个体时空活动链、群体时空活动异构图的构建和分析开展工作,重点研究了出行模式识别、活动语义识别、群体活动模式挖掘等算法,及相关的特征选择、聚类算法等机器学习方法,并在共享单车动态调配、充电站静态配置等领域予以应用。
项目取得如下重要结果:
1)提出了时空约束停留点识别方法,采用与聚类过程相统一的时空特征约束对轨迹簇进行细粒度识别,提高了个体出行停留点识别的准确率。
2)提出了基于社交媒体签到数据的个体活动语义识别方法,挖掘多源数据中活动时空特征、POI语义特征、空间偏好等联合特征,提高了稀疏数据中活动识别的准确性。
3)提出了个体时空活动链模型和构建方法。基于时空聚类、集成学习和深度学习等方法,构建了包含个体出行模式、活动语义、时序关系、空间关系等信息的个体时空活动链,给出了有效的个体时空活动提取和表示模型。
4)提出了群体时空活动异构图模型,建模了活动语义,活动间的时空关系,利用节点嵌入方法形成了对个体、群体时空活动可度量、可伸缩的灵活表示形式。并在此基础上提出了无监督的群体活动模式和异常活动挖掘算法。
5)提出基于城市空间语义和个体行为模式的城市充电站选址规划方法,提升了充电站选址对个体需求的满足度。提出了大规模单车系统调配方法,有效平衡了计算效率与决策变量尺寸的关系。
共发表论文31篇,其中国际刊物13篇;SCI、EI 分别收录13篇、7篇。.获国家发明专利、软件著作权 3项。.结合本项目研究工作,毕业博士2人、硕士6人。本项目将对进一步优化居民活动与城市管理服务的关系具有重要的理论意义,对利用信息科学的数据融合和人工智能算法研究解决城市、社会、环境等领域问题具有借鉴作用。
项目结题成果报告
以下研究成果内容摘自项目结题成果报告。该项目报告共计36页,关注城市数据派微信公众号,在微信公众号对话框中输入 2475 ,即可获得报告全文PDF的下载方式:
(1)主要研究内容
本项目以城市静态交通数据和个体活动时空大数据为基础,研究个体-群体的时空活动轨迹的感知、识别、语义标注和知识挖掘方法,并应用于公共交通资源优化布局和智能配置。具体包括:
1)基于物理时空的轨迹点分类
基于经 GPS轨迹压缩、GIS信息路网匹配获得的物理时空轨迹,研究轨迹点的长短期记忆网络 LSTM 二元分类方法,识别出移动点序列和停止点序列。
2)出行节点的识别与语义提取方法研究
针对移动点序列的物理特征和语义特征,基于概念器-深度神经网络,研究切换点识别方法,得到单一出行模式的轨迹片段;然后研究出行模式分类方法,实现轨迹片段的语义提取,得到出行节点序列。
3)活动节点的识别与语义提取方法研究
针对停止点序列与POI的关联特征,基于聚类和LDA方法,研究活动节点的POI位置识别方法;结合活动节点序列的时间语义特征,研究活动内容分类方法,实现活动节点的语义推理。
4)群体时空活动三维网络构建
在活动节点与出行节点组成的个体时空活动轨迹基础上,研究基于加速kmedoid 聚类的群体活动轨迹关键点提取方法,得到构建网络的节点;将个体动轨迹中节点的关联关系映射为边;然后计算网络中边和节点的热度,得出带有权重的群体时、空、人三维活动网络。
5)资源配置应用
方面,在城市共享资源动态配置领域,研究基于个体出行需求预测和供需匹配的动态优化方法,提供共享资源配置决策方案,验证个体时空活动轨迹方法的有效性;另一方面,在城市静态资源选址规划领域,研究基于城市空间中群体活动热度和分布的静态资源优化配置方法,验证群体时空活动三维网络方法体系的有效性。
(2)取得的主要研究进展、重要结果、关键数据等及其科学意义或应用前景。
本项目以城市个体-群体的出行和活动行为分析为基础,遵循机器学习和数据挖掘算法等人工智能方法与城市计算相结合的学科交叉研究思想,结合城市时空数据特点进行聚类分析、深度学习等方法的创新研究,挖掘城市多源时空数据,研究个体时空轨迹的结构化识别、语义信息提取、时空活动轨迹构建、以及群体三维时空活动网络构建,并在上述结构基础上,结合运筹学理论中的供需匹配、动态规划等方法,在静态公共设施选址与动态共享资源配置方面对提出的个体-群体时空活动模型及方法体系进行验证。主要研究进展的总体情况如图1所示。
1)基于物理时空的轨迹点分类
轨迹停留点的识别是轨迹分析、出行活动语义挖掘的关键。对带有时空信息的轨迹点进行聚类分析是识别停留点的有效方法,本项目首先从不同角度对不同假设前提的聚类方法进行了深入研究,提出了基于特征分析的具有聚类标函数的弹性网络算法和基于矩阵分解的共聚类方法。
针对现有的聚类算法存在聚类精度差和对噪声点的敏感性高等问题,提出了-种基于特征分析的具有聚类目标函数的弹性网络算法(FAENC)。基于聚类目标重新定义了代价函数,并基于代价函数和最大熵原理提出了一种新的聚类弹性网络能量函数。该模型是一种无监督优化方法,通过最小化能量函数,聚类问题可以通过自学习来解决,而无需人工训练或干预。此外,还提出了一种计算特征属性离散度的方法,从而可以识别噪声属性。根据加权策略对每个特征属性进行自动加权,可以消除噪声变量的影响,提高聚类质量和效率。
FAENC 的聚类弹性网络的几何结构能够与问题定义很好地对应,并且可以直观地跟踪聚类过程;可以显著降低数据集内部结构的影响,识别不同大小、形状和密度的聚类,并获得更高的聚类质量。该方法的时间复杂度为O(n)(n是聚类数据的数量)。在多个合成和真实数据集上的实验结果表明,与几种经典和先进的聚类方法相比,FAENC 大大提高了聚类结果的准确性。聚类过程示意图如图2所示。
此外,本项目研究了基于矩阵分解的共聚类方法。传统聚类方法通常计算单个分区。然而,现实世界中的大多数数据都相当复杂,往往可以组织成各种有意义的聚类。为了解决这一问题,本项目假设存在嵌入在不同子空间中的共簇,引入了一种基于矩阵分解的方法(MCC-SS)来探索嵌入在子空间中的多个共聚类,MCC-SS 可以同时在其中找到不同的子空间和共簇。所发现的共聚类质量高,可以容易地解释。为每个特征子空间指定一个子空间指示矩阵,并使用矩阵三因子分解在每个子空间中寻找行和列簇指示矩阵。为了确保多样性,使用聚类指标和子空间指标矩阵来量化成对共聚类之间的冗余。进一步引入了一个统一的目标函数来同时考虑这两个优化目标,以及一个交替优化解决方案来迭代优化聚类指标和特征指标矩阵。实验结果表明,该方法可以在不同子空间中探索不同的聚类,并且显著优于其他相关对比方法。
针对基于密度聚类的停留点识别方法对时空信息的表达缺陷,提出新的时空约束停留点识别方法,即基于时空约束密度聚类的停留点识别算法对个体出行轨迹进行停留点的识别。方法中采用了轨迹的间接时空表示:两点间的距离和平均速度,这既保留了轨迹的时空特征,又减少了轨迹段的分散程度,能够保留停留点和移动点的特征差异。在轨迹段的识别阶段,因为考虑了轨迹点的速度和距离等特征,同时也提出了多种约束方法,使得轨迹点的识别更加细致,提高了识别性能的同时还能够挖掘更多更深层次的轨迹信息。
为了表达某些时空序列的时间特征,在DBSCAN算法(Density-BasedSpatial Clustering ofApplications with Noise)基础上加入了时间维度,使之能够识别一些来回移动且密度比较大的簇;输入的数据不再是经纬度转换的空间距离特征,而是一个点到下一点的距离以及平均速度特征,这比仅考虑点与点之间的空间距离特征,有更好的特征选择。因此,相对于原始的DBSCAN算法,在特征的种类上有更多的选择。时空约束的聚类算法公式如下:
2)出行节点的识别与语义提取方法研究
居民出行信息可体现居民活动规律、反映城市交通问题,是制定交通规划与管理的重要依据。利用GPS获取的轨迹数据虽具有大量时空信息但不能直接表达出行模式,需要数据处理和挖掘算法提取隐藏知识来识别出行模式。由于居民出行模式具有高度的非线性和复杂性,识别具有很大挑战。本项目分别从特征选择/传统机器学习识别方法和基于深度学习的出行模式识别两个角度对这问题进行了研究。
a)基于特征选择和集成学习的出行模式识别方法
特征选择可以有效地缓解维数灾难问题。虽然已经提出了许多有监督的特征选择方法,但它们通常假设训练数据的标签是完整的,对于标签不完整数据的特征选择问题,现有方法尝试在缺少标签的训练数据中进行特征选择,但难以处理大而稀疏标签空间的特征选择问题。这些方法侧重于全局特征相关性,但有些特征相关性是局部的、且由数据子集共享。为了解决上述问题,本项目引入了一种基于标签压缩和局部特征关联的缺少标签的特征选择方法(FSLCLC)。FSLCLC使用稀疏标签数据矩阵上的低秩矩阵分解来压缩并恢复丢失的标签。同时,它分别利用稀疏正则化和局部特征相关性诱导的流形正则化来选择区分特征。之后它将标签压缩、缺失标签恢复和特征选择统一为一个联合目标,并开发了一种具有保证收敛性的迭代算法来优化目标。实验结果表明(如图4所示),FSLCLC可以有效地选择特征。
在特征选择基础上,本项目提出了基于集成学习的出行模式自动识别方法。首先采取更符合实际场景的基于固定长度规则的轨迹分段方式。与利用转换点进行单一出行方式轨迹段的轨迹分割方法不同,最终的分类类别除了常规的出行方式(步行、骑车、公交车、汽车、地铁和火车),还包括某段轨迹包含多种出行方式的情况,即混合模式,从而更准确地确定用户何时何地改变其出行行为。
探索了以深度森林为代表的集成学习模型在出行方式识别任务上的潜在分类能力,研究了针对出行模式识别任务的深度森林改进模型,集成了四种个体分类器:包括随机森林,完全随机森林、支持向量机和XGBoost,以尽可能符合“好而多样”的关系,提升最终集成学习模型的泛化能力与鲁棒性。深度森林通过多粒度扫描实现对浅层特征的高维表达,并输入到深层的级联结构中。与深度学习方法相比,深度森林在很多任务上拥有接近的性能表现,同时却无需设置大量超参数。这是由于训练过程在模型增益消失时自动停止,所以级联结构的层数可以自动确定。方法整体流程如图5所示。
b)基于GPS轨迹数据和递归神经网络的交通模式识别方法
从GPS轨迹中检测出行模式通常依赖于提取特征和传统机器学习算法。本项目利用深度学习方法的特征学习表征优势,解决特征提取的繁琐计算或漏提特征等弊端,提高对非线性分类问题的学习能力和识别出行模式的准确性。发展了一个用于从 GPS 轨迹数据中识别交通模式的深度学习模型,可以减少人工设计特征的难度和人类常识经验的于扰,挖掘更深层次的隐藏信息,更准确、更有效地识别交通方式。
首先通过对轨迹进行去野等预处理后,在切分好的各单方式轨迹段中随机抽取轨迹段,提取轨迹的运动属性作为输入,而不是原始GPS点的属性,计算每段的速度、速度测量的相对误差、相对距离、加速度、加速度测量的相对误差、加加速度以及方位变化角共7个特征。计算轨迹片段的运动学特征构成输入数据,提出基于卷积神经网络与门控循环单元相结合的识别出行模式方法,利用 CNN 层提取深层特征,利用 BiGRU层提取相关时序特征,最后通过Sofmax层得到识别结果。综合了卷积神经网络的深层特征表征优势和门控循环单元的时序特性挖掘能力,提高对非线性分类问题的学习能力和识别出行模式的准确性。方法思想和网络框架如图6所示。为验证所提出方法的有效性,设计了单独的卷积神经网络和门控循环单元等模型,在Geolife数据集上进行测试和对比。实验结果表明,本方法虽仅计算4个特征量仍具有较好的识别效果,并且优于单独采用卷积神经网络等分类方法的识别性能。
3)活动节点的识别与语义提取方法研究
本项目以带有签到信息的个体时空数据为基础,在机器学习框架下,从多个角度设计了多个个体活动语义识别与语义提取方法,为构建个体时空活动链和群体时空活动网络提供基础。
a)基于空间偏好和语义的个体活动识别研究
在基于位置的社交网络中,用户通过图片、文字等形式记录日常动态,隐含了用户活动相关的多种信息。基于这些数据进行个体活动行为的识别研究,有助于发现用户在特定时空的活动特征,进而进行区域资源和服务配置优化针对现有研究未结合用户的活动空间偏好特点和POI语义信息问题,提出了-种基于空间偏好和语义个体活动语义识别方法,通过签到数据中的时间、空间和 POI文本等信息对个体活动语义进行识别。方法如图7所示。
考虑到空间访问偏好对活动语义识别的参考意义,本项目研究基于签到数据的空间访问量差异,提出空间偏好量化算法。将地理空间区域划分为网格子空间,根据子空间内的签到点数量,分别提取个体、群体用户的访问偏好特征。同时引入了签到地点POI名称文本序列的词向量编码特征,提取POI文本中隐含的活动语义信息。将活动语义识别视为多分类任务进行处理,提取了时间、空间、文本三个维度的特征,组合成为特征向量,采用了GBoost模型作为分类器,构建了一种基于多特征的活动语义识别算法模型。
空间热度特征指用户在打卡行为中产生的热点访问区域,群体的访问偏好对于个体活动识别具有一定的参考意义。同时,个体在进行一些活动时会根据个体的行为习惯、兴趣偏好等来选择,即个体具有个体空间偏好。因此为了反映群体空间偏好和个体空间偏好,从空间中挖掘群体空间热点访问区域和个体空间热点访问区域来量化空间的个体偏好和群体偏好特征,从个体签到的空间特性来表征潜在的时空活动模式,来反映群体的空间偏好和个体的空间偏好。
图8分别给出了公开数据集FourSquare 群体个体空间访问热力图。为验证相关特征和算法的有效性,在Foursquare社交签到数据集上进行了系列消融及对比实验。结果证明了空间访问偏好特征和文本特征的有效性,且个体活动语义识别算法性能优于现有算法。
b)基于周期模式挖掘的个体时空轨迹活动语义识别方法
个体活动往往带有一定的周期性,本项目从原始轨迹数据和社交媒体签到数据中提取用户的空间特征和时间特征,挖掘出用户的周期模式特征,构建分类器和网络模型识别用户的活动语义。提出了基于周期模式挖掘的轨迹时空特征表示方法,有效地兼顾时空轨迹的空间信息和时间信息。如图9所示。
该方法首先对轨迹数据和社交媒体签到数据进行周期模式挖掘,根据轨迹之间的时间和空间距离,使用DBSCAN算法将原始的时空轨迹数据和社交媒体签到数据进行聚类得到停留区域点;然后对每个停留区域点中的轨迹点进行地点匹配,得到活动轨迹参考点序列;再根据活动参考点序列,使用LombScargle算法检测出每个用户的周期模式特征,此外,提取出活动轨迹的月份、日期、停留时间等时间特征;最后根据活动轨迹经纬度和持续时间得到活动轨迹的速度等时空特征,提取 GPS轨迹数据中的POI并挖掘用户的活动语义周期。
在基于随机森林和循环门控单元的活动语义识别方面,以表示出个体轨迹周期模式特征为基础,结合用户轨迹的空间特征和时间特征,提出使用随机森林和门控循环单元网络的方法来构建个体活动语义识别模型,进而识别用户的活动语义。
在有无周期模式加入的对比实验中,周期模式特征能够有效提升活动语义识别的精度 20%以上,并且在社交媒体签到数据中,加入周期模式后分类器最好的分类精度达到95%。
4)群体时空活动轨迹模型构建
在个体活动语义、出行语义识别基础上,可构建个体的时空活动链,为群体时空活动分析提供支撑。本项目从个体时空活动链构建、群体时空活动异构图、群体活动模式挖掘、群体异常活动识别等方面进行了研究。
a)基于语义的时空活动链构建
在活动节点与出行节点组成的个体时空活动轨迹基础上,基于语义构建时空活动链。将时空数据与活动类别语义信息结合,提出描述个体活动过程的时空活动链。为表达用户在指定时间粒度轨迹的活动语义信息,本项目基于时空签到数据识别对应的活动语义类别信息,对时空数据进行语义富化,构建了时空活动链形式的用户时空活动数据,时空活动链的形式如图10所示。
b)时空活动链的异构图模型
……
还有更多成果内容,详见项目结题成果报告。该项目报告共计36页,关注城市数据派微信公众号,在微信公众号对话框中输入2475,即可获得报告全文PDF的下载方式。
原文始发于微信公众号(城市数据派):一种创新的个体、群体时空活动的识别、建模、表示、分析和应用方法系统丨城市数据派