

年终数据技能大冲刺开车啦!
同时报名还可享更多优惠:
任选2套同报,钜惠价再减200元!
任选3套同报,钜惠价再减360元!
任选4套同报,钜惠价再减520元!
任选5套同报,钜惠价再减650元!
(多套同报优惠到1月30日截止,
以上优惠不包括营13和营14)

在地理信息科学中,地理分区方法广泛用于地理数据挖掘、时空模式发现和区域研究。理想的地理分区方法应同时考虑空间连续性、时间连续性和属性相似性。
现有的方法大多关注空间连续性和属性相似性,而忽略了地理现象的时间连续性特征。我们提出了一种考虑时空连续性和属性相似性的多元时空区域化(Spatiotemporal regionalizaiton, STR)方法,该方法设计了一种自下而上的无监督多元层次聚类,其使用时空邻近规则进行约束,从而实现时空数据的自动区域化。
为了测试STR方法的性能,我们将其应用于合成数据集和真实世界数据集(中国空气污染物数据)并取得了理想的结果。这种方法提供了时空视角来解决区域化或聚类问题,可能支持时空数据分析、遥感、城市规划和社会科学中的其他应用。
Haoran Wang, Haiping Zhang*, Hui Zhu, Fei Zhao, Shangjing Jiang,Guoan Tang & Liyang Xiong (2023) A multivariate hierarchical regionalization method todiscovering spatiotemporal patterns, GIScience & Remote Sensing, 60:1, 2176704.
Link: https://doi.org/10.1080/15481603.2023.2176704
本文提出一种自下而上的无监督层次聚类算法,能够在考虑时空连续性和多元相似性的情况下实现时空数据的自动化地理分区。我们称之为STR方法,它包括四个步骤。
首先,我们定义时空立方体(Space-time Cube, STC)的时空邻近规则和邻域合并规则。它可以保证STC合并形成的聚类具有时空连续性,我们称之为时空域。
其次,由于时空数据中的地理实体具有多种属性,我们将它们转换为地理实体的特征向量。然后,本文采用多元重心欧氏距离作为STC与其邻居立方体相似度的计算方法。
第三,我们使用无监督层次聚类的思想来搜索每个STC的时空邻域。然后我们计算STC与其相邻立方体之间的相似度并选择最大的一个进行合并。
第四,我们评估和分析分区结果并检测三种基本类型的时空域:圆柱形、饼形和球形。不同的类型代表不同的时空特征。该方法充分考虑了空间自相关和时间自相关,是将地理分区算法从空间维度扩展到时间维度的尝试。
本节评估区域化结果的形状和变量分布。区划结果的形状可以反映其时空特征,而内部变量分布则可以反映其属性特征。图5展示了 STC 区域化结果的三种基本类型:(a) 圆柱形时空域、(b) 饼形时空域和 (c) 球形时空域。其他形状可以由这三个基本形状组成。圆柱形时空域在X和Y方向上的范围较小,但在T方向上的范围较大(图5a)。这代表了一种在空间中相对稳定但持续很长时间的现象。饼状时空域在X和Y方向上的范围较大,但在T方向上的范围较小(图5b)。这代表了一种在空间中分布广泛但持续时间短的现象。球形时空域在XYT的三个方向上具有相对均匀的分布(图5c)。
图6显示了不同簇的变量分布的差异。图6左边部分是区划结果,中间部分是区划结果中的三个聚类:Clusters I、Clusters II、Clusters III。右侧部分的图6a、6b和6c是这三个聚类的变量分布。该方法在计算过程中综合考虑了多变量信息。每个聚类内部存在相似的变量分布,可以反映聚类属性特征。例如,Clusters I中的立方体具有相对较高的V2和V4以及较低的V1、V2和V5的特征(图 6a)。其他聚类中的立方体也有同样的现象。当变量具有实际意义时,每个聚类可以根据其变量分布来分析特定的地理意义。
将合成数据集转换为STC,并使用STR方法对其时空聚类进行区域化。由于STR方法是一种无监督的地理分区方法,区域的个数k由研究需要确定。本节显示了八个分区结果,其中相同的颜色代表相同的时空聚类(图7)。如图所示,结果具有三个基本特征。首先,保证同一时空域的时空连续性,使得同一聚类内的立方体相互时空邻居。其次,合成数据集中预设的时空结构得到了合理的表达。第三,圆柱形、饼形、球形时空域三种基本结构也已展现。因此,该方法可以表达合成数据集的时空结构并完成区域化。
在完成小型随机合成数据集的初始实验后,我们在较大的随机合成数据集上测试STR方法的准确性。该数据集包含8000个STC,每个STC包含5个随机变量。在每次聚类测试之前,我们将整个数据集预先划分为特定数量的聚类并设置标签。将STR方法的结果与标签进行比较,以获得误分类的STC和准确率。
图8展示了随机数据集上的理论结果和实际结果的比较。每个子图由两部分组成:上半部分和下半部分分别是理论结果和实际结果。从图中我们发现STR方法的实际结果与理论结果是一致的。同时,STR结果也保持了时空连续性。当分区数为3时(图8b),STR结果疑似在时空维度上不连续。
经过检查,产生的异常值通过随机数据集底部的STC连接到主要社区。当分区数为5和7时,STR结果的时间维度显示出轻微的错位(图8d和8f)。然而,在实际研究中,研究区域的空间维度远大于时间维度。因此,时间维度上的微小误差并不影响对特定地理格局的分析和挖掘。
图9表示STR方法生成的每个聚类的数值特征。图中的X轴表示合成数据集的属性,Y轴是每个聚类属性的平均值。每条线代表每个聚类内属性的数字分布。从图中可以看出,STR方法还可以发现STC特征空间的差异。例如,聚类I和IV不仅在时空维度上彼此独立,而且在特征空间中表现出相反的数值分布模式。如果这种现象发生在现实世界的数据集中,它通常会揭示特定的地理时空模式。这表明STR方法在执行基于区域化的聚类和挖掘时空模式方面是有效的。
从具体的误分类STC和算法准确度来看,我们还可以发现有趣的现象。随着分区数的增加,误分类的STC数量从381个减少到294个。同时,算法在随机数据集上的准确率也从95.2375%增加到96.325%。当分区超过10个时,STR方法的误分类数趋于稳定,保持在295个左右(图10)。原因与消除分区数增加带来的误差有关。
理论上,对于同一个算法,其准确率在任何随机数据集上都必须是稳定的,因此误分类的STC数量也是稳定的。因此,当分区数量较少时,大量误分类的STC集中在同一个簇中,导致错误率稍高。我们还将MSC、MST和SKATER方法应用于合成数据集。
结果表明,STR方法在时空数据的基于区域化的聚类任务中具有相对优势。为什么其他方法对于时空数据效果不佳也是很清楚的。由于这些方法在逻辑上没有考虑时空连续性,而只考虑空间连续性,因此只能计算每个时间层,然后将它们整合。不同时间层之间会产生不连续的聚类,导致错误概率上升。
图10.不同分区数下MSC、MST、SKATER和STR方法的误分类数
在本节中,我们首先根据四种污染物数据的空间和时间分辨率绘制地图。这样,形成的新数据集的每个网格点就保存了该位置四种污染物的排放量。然后,根据新数据集的时间属性,构建层之间的时间关联,使得新数据集中的每个网格点在时空维度上都有邻居。为了方便阅读,结果以STC形式显示,主要分为时空聚类及其属性数值分布两部分。在3.1节中,我们进行了稳定性和精度实验,证明当分类数超过10时,算法的误差趋于稳定(图10)。因此,我们使用STR方法将真实世界数据集分为10个区域。
图11为STR方法计算出的中国空气污染物区划结果的时空分布。图12显示了垂直(时间)维度的分布,显示了每个时空域的持续时间长度和水平(空间)维度的分布。图13显示了各聚类中污染物数值分布的明显差异,证明STR方法不仅实现了时空维度上的聚类,而且还实现了属性维度上的聚类。此外,在图13中,每个聚类属性分布的小提琴图显示出平坦的形状。这代表同一时空域内属性的数值分布是相似的,也说明了STR方法生成的簇的内部一致性。如果我们将聚类的时空分布与属性值分布结合起来,那么可以发现许多有趣的现象。
图11显示每个聚类在时间尺度上的分布是连续的,并且没有聚类产生中断。该结果揭示了各聚类中污染物排放的独特且稳定的模式,与图13所示的表观属性分布特征形成交叉验证。同时,使用STR方法研究时空聚类多元分布的必要性是已证明。集群的空间分布与中国的自然地理和社会经济因素具有显着的对应关系。具体而言,集群的空间分布与西部地区的自然地理约束具有较强的相关性,与东南部地区的社会经济发展格局具有较高的相关性。
具体来说,时空域1在时间上的分布是持久的,而在空间上的分布随着时间逐渐减小。2018年初,时空域1覆盖东北地区、内蒙古北部、河北省、山东省。然后,随着时间的推移逐渐减少到中国东北地区(图12a)。东北地区是全国最早的工业化地区,经济结构以重工业和农业为主。因此,O3的数值分布集中在高值处,很少出现异常值(图13a)。NO2、PM2.5、PM10值集中在较低水平,表明东北地区汽车尾气排放较低。这一发现可能间接反映了大城市的城市化率较低且分布相对稀疏。
时空域2的覆盖范围稳定。时间维度上不存在断层,空间覆盖集中在华北平原(图12b)。华北平原是中国人口最稠密的地区。四种污染物的分布数量明显多于其他簇(图13b)。我们还可以观察到其数值分布的一个显着特征,即PM2.5的中值较高,且峰值附近的数值明显增大。这一发现与该地区存在许多人口众多的城市及其严重的生活废气排放有关。
此外,时空域6与时空域2的数值分布相似(图13f),表明黄土高原与华北地区具有相似的产业结构和发展模式。但时空域6的O3比时空域2更集中在高值,NO2和PM2.5的排放量略低。这一发现表明黄土高原城市居民的排放量低于华北地区。
时空域3的空间范围包括塔克拉玛干沙漠、甘肃戈壁和柴达木盆地。其时间分布是持续的。空间维度上,覆盖范围全年稳定,年底扩大至甘肃省中部地区(图12c)。该地区是全国人口最稀少、沙漠化最严重的地区。广泛的沙漠和频繁的沙尘暴导致该集群的PM10值极高,峰值约为1200ug/m3,是10个集群中最高的(图13c)。由于人口和工业设施稀少,其他三种污染物的排放量极低,NO2值均匀分布在0附近。
同样分布在西北地区的还有时空域5和时空域8,其属性和数值分布与西北地区相似。时空域5主要分布在北疆和内蒙古草原。时间维度上的连续性很强,但空间范围随着时间的推移逐渐减小(图12e)。时空域8几乎涵盖了中国西部所有的高山和高原,包括青藏高原、喜马拉雅山脉、昆仑山脉、帕米尔高原、天山山脉以及延伸到中国中部的秦岭山脉。其空间范围也很稳定,随时间变化很小(图12h)。这两个集群也是人烟稀少的地区。由于远离沙漠,两个集群的PM10值均低于时空域3,这表明自然和社会环境相似的地区具有相似的污染物排放模式。
时空域4、6、7、9和10分布在中国中部地区。其中,时空域6、7和10在时间和空间上不易发生变化。(图12f、12g和12j)。这说明这三个集群的空气排放模式具有明显的时空自相关性。时空域4和时空域9分布在中国东南沿海(图12d和12i)。它们的空间位置相互重叠,时间分布相互交叉,表明两者在污染物排放模式上具有相似性。时空域4、7和9在属性数值分布中表现出相似的模式(图13d、13g和13i)。四种污染物数值差异不大,各污染物分布较为均匀。
从地理位置上看,时空域4主要位于华南沿海地区。时空域7覆盖中国中心城市群。时空域9的范围对应长江平原下游、台湾岛和海南岛(图11)。这些地区是中国经济最发达、商业化程度最高的地区。时空域9繁荣的经济活动也创造了与其他集群不同的污染物排放模式。时空域10包含藏南和云南,表现出独特的属性数值分布模式。O3的中值显着高于其他污染物,这与其他时空域不同(图13j)。PM2.5和PM10的数值明显低于其他集群。这种排放模式可能与高森林覆盖率、充足的降水和较低的人类活动密不可分。
本研究提出了一种多元层次区域化方法(STR方法)来寻找时空模式。该方法有效实现了时空数据的基于区域化的聚类和模式发现,在小型综合数据集、大型综合数据集和真实空气污染数据集上均取得了理想的结果。与其他区划方法相比,STR在聚类的时空连续性和属性相似性方面也表现出优势。通过对真实世界数据集的实验,
我们发现了中国污染物排放时空格局的三个特征。即中国东南沿海的全球异质性、局部同质性和时间交叉性。这是对地理学第一定律和地理学第二定律的有力表述。同一时空域内属性的相似性支持了近年来出现的地理学第三定律。虽然STR方法取得了理想的结果,但它也暴露了自己的局限性:数据集形状效应、低效率和MAUP问题的限制。因此,STR方法可以在以下三个方面进行进一步的探索和研究:(1)效率优化算法的嵌入,(2)自上而下的思想应用,(3)多尺度稳定聚类方法的研究。
这项研究的主要新颖贡献在于为时空比较和STR的时空视角提供了新的框架。这也提高了时空异质性分析的效率,丰富了空间格局发现的手段。STR方法是一种通用方法,符合方法输入结构的数据都可以用于时空模式发现,大大增加了其应用范围。因此,STR方法可以利用丰富的多源时空数据支持遥感、城市规划和社会科学应用。
本研究中使用的数据和代码是公开的,感兴趣的读者可以在以下网址搜索和使用它们:
https://github.com/AidenWang0309/Spatiotemporal-RegionaliaztionAlgorithm.
最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”或“在看”,没有把我们“星标”,都有可能出现这种状况。
加“星标”,不迷路!看完文章顺手点点“赞”或“在看”,就可以准时与我们见面了~
原文始发于微信公众号(城市数据派):【学术成果】GIScience & Remote Sensing:时空域地理分区方法丨城市数据派