
数据精英春季特训营开车啦!
同时报名还可享更多优惠:
任选2套同报,再减200元!
任选3套同报,再减360元!
任选4套同报,再减520元!
任选5套同报,再减700元!

项目基本信息
项目名称:大数据环境下地理关联模式挖掘的理论与方法
项目负责人:邓敏
依托单位:中南大学
项目参与人:
王志忠 教授 中南大学
邹艳红 副教授 中南大学
陈杰 副教授 中南大学
刘启亮 讲师 中南大学
邓浩 讲师 中南大学
张云菲 讲师 中南大学
唐建波 中南大学
杨学习 中南大学
蔡建南 中南大学
项目结题摘要
地理关联模式是现实世界中地理要素关系的一种重要表现形式,亦是认知与揭示地理要素分布格局、关联关系、演变规律和发展趋势的一种主要地理知识。本项目从地理系统科学研究范式出发,构建了大数据环境下地理关联模式挖掘的理论与方法。
围绕地理关联模式特征的认知表达、异质性对地理关联模式特征的影响以及地理关联模式的尺度依赖性等关键科学问题与技术瓶颈,深入研究地理要素相互作用、相互依存及协同演化规律,主要创新包括:
1)从系统性的视角,基于地理系统科学研究范式假设,提出了地理关联模式挖掘的理论框架,构建了地理要素自相关模式、互相关模式、时相关模式的内在耦合、形式统一的表达模式(称为地理关联模式);
2)建立了顾及时空分异性的地理关联模式自适应挖掘模型与方法,提出了异质环境下地理要素自相关模式的自适应挖掘模型,提高了对分布范围、密度、形态空间异质的时空分异模式的发现能力,降低了参数设置的主观性对挖掘结果的影响;
3)构建了地理关联模式的尺度依赖性建模与挖掘结果的可靠性评价模型,提出了顾及自相关性的地理要素互相关模式多尺度挖掘方法,借助时空统计思想构建了地理要素互相关模式显著性统计判别模型,建立了互相关模式挖掘中分析尺度与数据尺度间的关系,提高了挖掘结果的可解释性和可靠性;
4)研究了异质环境下地理要素时相关模式建模方法,顾及多要素间的互相关性,建立了不同层次的局部时相关模型,提高了地理现象时相关模式的预测能力。
项目研究成果共出版学术专著2部,发表高水平论文65篇,其中SCI/SSCI论文48篇(IJGIS论文12篇),授权国家发明专利9项,培养博士后3人,博士毕业生8人,硕士毕业生20人。项目负责人邓敏被评为教育部长江学者特聘教授、国家中青年科技创新领军人才等。部分成果获国家科技进步二等奖1项、省部级科技进步一等奖2项。
项目结题成果报告
以下研究成果内容部分摘自项目结题成果报告。该项目报告共计122页,关注城市数据派微信号,在对话框中输入 24523,即可获得报告全文PDF的下载方式:
本项目针对现有地理要素的分布格局、关联关系和发展变化趋势挖掘研究相对孤立,缺乏系统性理论与方法支撑,从而导致解决区域性、多要素协同演化等综合性地理问题的能力不足的问题,从系统论的视角,基于地理系统科学研究范式假设(即共存于同一系统中的地理要素具有相互作用、相互依存、协同演化的特征),将不同形式的地理要素关联模式(即自相关模式、互相关模式、时相关模式)建立了一个内在耦合的、统一的表达形式(统称为“地理关联模式”)构建了一套大数据环境下地理关联模式挖掘的理论与方法,主要解决了地理关联模式特征表达与协同机制、地理关联模式(自相关模式、互相关模式和时相关模式)的自适应挖掘模型、地理关联模式的尺度依赖性建模和挖掘结果的可靠性评价等关键问题,为揭示地表复杂系统中地理要素关联模式的时空异质性特征与尺度依赖性规律提供了模型方法与关键技术支撑。
项目研究取得显著进展,成果丰富,主要的相关研究内容包括:
(1)时空大数据的不完备性认知与推理
多源、多维、异构的时空大数据获取平台众多,平台间相互独立,缺乏相关的共享机制,而且样本大多是有偏采样且质量无法控制,对基于随机样本的统计理论带来巨大挑战。为此,本项目提出了时空大数据不完备性认知与分类体系构建了时空大数据不完备性四元组【缺失性、稀疏性、有偏性、冲突性】,研究采用生成式模型、插值模型、多模态学习、增量式学习等模型方法,通过补全加密、融合和更新等数据处理操作,实现应用需求驱动的高质量数据汇聚整合
(2)地理关联模式特征表达与统一理论模型
从系统论的视角,基于地理系统科学研究范式假设,提出了地理关联模式挖掘的统一理论框架。针对不同形式的地理要素关联特征(如地理要素的分布格局、关联作用关系和演化趋势),构建了一个内在耦合、统一的表达形式,称为地理关联模式。主要研究了自相关模式(同类地理要素的关联特征)、互相关模式(不同类地理要素间的关联特征)、时相关模式(地理要素未来状态与历史状态的关联特征)的表现形式及相互影响关系;分析了不同来源地理大数据中地理关联式的潜在形式和特征表征,从地理大数据的产生机理、认知方式与形式进行深入分析,研究了地理大数据的采样方式、有偏性等对地理关联模式挖掘模型方法的影响,提出了有偏样本推断总体的纠偏方法以及统计推断插值/回归方法。
(3)地理关联模式的尺度依赖性建模与度量方法
受人类视觉多尺度认知过程启发,以时空分布特征为引导,发展了顾及自相关特征的地理要素互相关模式多尺度挖掘方法,借助时空统计思想提出了地理要素互相关模式显著性统计判别模型,构建了地理关联模式尺度依赖性建模方法:建立了互相关模式挖掘中分析尺度与数据尺度间的影响关系,实现从整体到局部的多尺度互相关模式的挖掘:面向复杂地理现象动态过程的多尺度时空互相关模式挖掘方法和顾及异常知识的空间预测建模方法,将时空相关模式挖掘任务建模为多元独立分布零假设下不同要素间时空依赖性的显著性检验问题,显著降低了挖掘算法对阈值设置的依赖,提高了时空自相关、互相关和时相关模式多尺度挖掘结果的可靠性。
(4)顾及时空分异性的地理关联模式自适应挖掘模型与方法
提出了异质环境下地理要素自相关模式的自适应挖掘模型,结合图论探索了时空邻域的自适应构建,提高了对分布范围、密度、形态空间异质性的时空分异模式的发现能力,降低了参数设置的主观性对挖掘结果的影响;针对地理关联型分析方法多基于欧氏空间的连续分布假设,不能反映网络空间约束下地理要素自相关、互相关模式的真实特征,发展了基于网络空间约束的地理要素自相关互相关模式统计挖掘方法;定义了空间同现模式的全新认知视角–空间同分布模式,融合空间聚类和空间统计的思想提出了相应的统计挖掘方法;建立了地理关联模式的自适应挖掘模型与方法,构建了异质环境下地理要素时相关模式建模方法,借助自相关模式挖掘手段发现不同空间区域上地理现象的分布模式,进步顾及多要素互相关特征,建立了不同层次的局部时相关模型,提高了地理现象演化模式的预测能力。
2.2 取得的主要研究进展、重要结果、关键数据等及其科学意义或应用前景
本项目基于地理系统科学研究范式,系统研究了地理要素在大数据环境下“由简单到复杂”(自相关一互相关)、“由格局到过程”(分布模式一协同演化)的地理关联模式,重点开展了时空大数据不完备性认知与推理一地理关联模式特征表达与协同机制一地理关联模式的自适应挖掘模型一地理关联模式的尺度依赖性建模等研究,构建了大数据环境下地理关联模式挖掘的理论与方法,为揭示地表复杂系统中地理要素关联模式的时空异质性特征与尺度依赖性规律提供指导。下面分别阐述本项目在时空大数据的不完备性认知、地理要素自相关关联式、互相关关联模式、时相关关联模式四个方面取得的主要研究进展与成果。
2.2.1 时空大数据不完备性认知与推理
针对地理时空大数据信息来源复杂、质量参差不齐、获取平台独立、动态性强,且存在选择性采样、样本有偏等特点,导致地理时空大数据分析结果的可性不能保证。为此,本项目从时空大数据的产生与构成角度出发,提出了时空大数据不完备性认知框架,建立了时空大数据不完备性的分类体系。不完备时空大数据难以对地理现象的全面与精准描述,尤其对机理复杂、表达多样的地理现象甚至导致错误的描述和分析结果。深刻认知和处理时空大数据的不完备性,是实现时空大数据高效分析、深入应用以及有效满足多领域任务需求的关键。
(1)时空大数据不完备性的分类体系
根据时空大数据的构成与来源,将不完备性分类为:缺失性、稀疏性、有偏性、冲突性。具体地,由于存在一定的缺失性,难以感知复杂地理现象的全信息,即时空大数据不等于无死角;由于存在一定的稀疏性,难以满足细粒度/精细化挖掘的应用需求,也就是说,时空大数据不等同于全粒度;大数据产生过程的自发性难以避免维度缺失,存在一定的有偏性,因而时空大数据不等同于全维度大数据的多源性对相同地理现象的描述极易产生矛盾,因而大数据亦存在冲突缺失、稀疏、有偏、冲突构成了时空大数据不完备性的四元组。如图1所示,数据缺失主要表现为随机缺失、块状缺失、规律性缺失;数据稀疏可以细分为均今稀疏、随机稀疏和聚集稀疏;数据有偏主要包括关系有偏、模式有偏和规律有偏;数据冲突主要包括时空冲突、属性冲突和语义冲突。
图1 时空大数据不完备性分类描述
(2)不完备时空大数据智能推理
针对不完备性问题给应用需求造成的阻力,本项目系统地剖析了阻力产生的根源机制,并指导构建智能模型,以实现数据从不完备到完备的进化。如图2所示,采用生成式模型、插值模型、多模态学习、增量式学习等模型方法,通过补全、加密、融合和更新等数据处理操作,使得待分析数据从无到有、从疏到密、从偏到全、从离到和,满足不同业务应用需求侧对数据供给侧提出要求。
图2 时空大数据各种类型不完备性的智能推理策略
针对缺失问题,采用智能化的生成式模型,通过反复的博弈与对抗学习,不断加深对于数据内蕴规律的拟合程度,从而“以假乱真”的补全缺失数据。针对稀疏问题,采用时-空-属多维度相关关系指导下的智能化加密模型,通过聚合地理邻域信息以填补未知点数据,实现时空数据的加密。针对有偏问题,采用基于多源异构时空大数据的数据表征、信息抽取与特征融合方法,从不同尺度、不同视角实现对地理规律的综合表达。针对地理现象时态演化与观测数据信息滞后之间的矛盾所导致的冲突问题,采用基于增量学习的策略,实时整合、优化、更新相关时空数据。具体技术路线如图3所示。
图3 时空大数据各种类型不完备性的智能推理技术路线
2.2.2 地理要素自相关关联模式挖掘
2.2.2.1 空间-属性耦合的自相关模式有效性重排检验方法
地理空间聚集模式是对地理空间实体或现象之间空间关系的一种描述,亦是地理要素自相关模式的主要形式,具体表现为具有相似特征的空间邻近地理要素或现象的集合,有助于揭示地理要素或现象的区域性分布规律及演化趋势。同时顾及空间邻近与专题属性相似的地理要素自相关模式分析是挖掘空间分布模式的一种有效手段。现有顾及专题属性层次聚类方法大多依靠人为调整聚类参数来控制聚类结果,并未充分顾及数据自身的分布特征,在解决实际应用问题时存在较大的主观性和局限性。与此同时,聚类结果的可靠性或显著性缺乏客观评价使得挖掘结果中可能存在虚假模式。为此,本项目提出了一种空间-属性耦合的自相关模式有效性重排检验方法,用于确定空间自相关模式层次聚类的停止准则减少聚类过程对参数设置的依赖。具体流程如图4所示,主要包括两个步骤,下面分别描述。
(1)空间簇的显著性统计判别
空间簇的显著性判别是指在完全空间随机(Complete Spatial RandomnessCSR)的假设下,对空间簇内实体的专题属性相似性的显著性进行统计推断。空间簇的显著性判别相比于一般的统计推断过程更为复杂,需要同时兼顾空间簇均质性的两方面约束条件,即邻近实体专题属性的相似性约束和簇内实体专题属性的相似性约束。在完全空间随机分布的假设下(即空间实体的专题属性与其邻近实体的专题属性间不存在相关关系,是相互独立的随机分布),可以采用随机重排检验的策略对空间簇的显著性进行统计判别。
(2)基于统计检验的空间聚集模式自适应挖掘方法
为了解决现有聚类方法对参数设置的过度依赖问题,在空间簇的显著性统计判别研究基础上,将空间簇的显著性判别方法融合于空间层次聚类模型,提出了一种基于统计检验的聚集模式自适应挖掘模型。该模型首先借助图论工具(如Delaunay 三角网、Voronoi 图等)提取空间点要素间的空间邻近关系;在此基础上,通过全局随机重排检验识别空间数据中与其邻近实体专题属性显著相似的空间实体(称之为核点),核点及其空间邻近实体是构成均质簇的基本要素,因而需要先从数据中识别出潜在的核点;最后,在专题属性方差增量最小约束下,将核点及其空间邻近实体进行层次合并,在每次合并生成新的空间簇时都需要对该簇的显著性进行统计判别,并以此确定层次聚类合并的终止条件。相比于现有的聚类模型,该模型一方面可以直接对空间数据中有无聚集结构进行统计判别,避免噪声和随机数据的干扰:另一方面通过聚集模式显著性统计判别来确定空间层次聚类的停止准则,可以减少聚类过程对参数设置的依赖。
采用2009年我国554个陆地气象观测站的年降水量和年平均气温数据进行分析,聚类结果如图所示。为了对识别的聚类结果进行有效性分析,采用普通克里金插值方法获得降水、气温在空间上的连续分布,进而借助视觉识别的方法对聚类结果有效性进行评价。对比空间插值结果可以发现,不同空间簇间均具有比较明显的分界线。如图5(a)所示,降水数据的聚类结果较好反映了我国降水空间分布的基本特征,图中标记的红色线由北向南分别代表我国年降水量400毫米、800 毫米和 1600毫米等值线,如C2与(C1、C3和C4)的边界构成了我国 400 毫米年降水量等值线;C3、C4与簇C5、C8、C9、C10的边界构成了我国 800 毫米降水等值线:C5、C6与C7、C12、C14的边界构成了我国1600毫米降水等值线。如图5(b)所示,气温数据的聚类结果充分反映了我国气温分布的空间分异特征,由北到南发现的空间与我国主要气温带十分吻合如簇 C9 对应了寒温带,簇 C1,C2,C3 表示了中温带、簇 C4 表示了暖温带、簇 C5、C13 对应了北亚热带、簇C6表示了中亚热带、簇C7代表了南亚热带簇 C8、C14 表示了边缘热带、簇 C10、C12 表示了高原温带、簇C11 代表了高原寒带。此外,结合克里金插值结果亦可以发现同一空间簇内各站点的气温和降水相似,说明了空间聚类结果保证了簇内部的均质性,且与气象领域的分区结果较吻合。
图4 空间-属性耦合的自相关模式有效性重排检验方法流程
图5 本项目所提方法对气象监测数据的聚类分区结果
通过试验分析与比较发现,该方法能够有效判别空间自相关模式层次聚类结果的显著性和确定层次聚类合并过程的停止条件,同时具有很好的抗噪性,避免随机结构的干扰。相关研究成果发表于地理信息科学领域国际权威SCI期刊《InternationalJournal ofGeographical Information Science 》。
1] Liu,O.. Liu,W.. Tang,j., Deng, .. Liu,Y.(2019).Two-stage permutation testsfor determining homogeneity within a spatial cluster. International Journal ofGeographicalInformation Science.33(9):1718-1738
2.2.2.2 时间-空间-属性耦合的自相关模式统计聚类方法
融合时空邻近与专题属性相似的时空自相关模式聚类分析是挖掘地理现象时空演化规律的重要手段。现有方法需要的聚类参数大多难以获取,影响了聚类方法的可操作性与聚类结果的可靠性。为此,本项目提出一种基于重排检验的时空自相关模式统计聚类方法。首先,通过重排检验发现时空数据集中的均质子区域;进而,采用均方误差准则合并均质子区域内的时空实体生成时空簇,并通过簇内重排检验自动识别聚类合并的终止条件;最后,借助时空拓扑关系在保证结果精度的前提下发展一种快速重排检验的方法,提高了时空自相关模式聚类方法的运行效率。具体流程如图6所示。
图6 时间-空间-属性耦合的自相关模式统计聚类方法流程图
图7 具有不同时空聚集模式的复杂模拟数据
图8 模拟数据的挖掘结果对比
通过实验验证和比较发现,该方法一方面可以发现不同形状、大小的时空簇聚类质量优于经典的ST-DBSCAN方法,如图7和8所示;另一方面聚类过程中人为设置参数的主观性显著降低,提高了聚类方法的可操作性。相关研究成果发表于国际权威SSCI期刊《Computers, Environment and Urban Systems》[1] Liu,Q., Liu,W,Tang,J., Deng,M., Liu,Y.(2019).Permutation-test-basedclustering method for detection of dynamic patterns in spatio-temporal datasetsComputers,Environment and Urban Systems.75,204-216
2.2.2.3任意形状显著空间集聚模式统计挖掘方法
融合地理要素空间邻近的自相关模式聚类分析是挖掘地理现象时空演化规律的重要手段。现有方法需要的聚类参数大多数难以获取,影响了聚类方法的可操作性与聚类结果的可靠性。为此,本项目针对普通包含噪声点的空间数据集,提出一种任意形状显著空间集聚模式统计挖掘方法。首先,构建空间点的Voronoi图,空间点的密度由 Voronoi单元的面积定义。然后,使用空间热点统计分析自动检测高密度点,并采用基于密度的聚类策略,将相邻的高密度点组合成候选聚类区域。最后,利用统计显著性检验来评估候选聚类在空间同质或异质分布假设下的显著性。方法流程如图9所示,下面详细阐述两个主要步骤。
图9 任意形状显著空间集聚模式统计挖掘方法流程图
(2)空间聚集模式显著性判别
图 10模拟数据的挖掘结果图
表2 基于模拟数据的结果对比
图11 出租车上车点聚集分布模式挖掘结果
……
还有更多成果内容,详见项目结题成果报告。该项目报告共计122页,关注城市数据派微信公众号,在公众号对话框中输入 24523 ,即可获得报告全文PDF的下载方式。
原文始发于微信公众号(城市数据派):大数据环境下地理关联模式挖掘的理论与方法丨城市数据派