快速准确地获取一个地区的土地覆盖变化信息,可以为该地区的社会经济发展、生态环境建设、国土空间规划等提供重要支撑。以广东省为研究区,以谷歌地球引擎(Google Earth Engine,GEE)云平台为支撑,以Sentinel 1-2以及Landsat 7-8的数据为遥感数据源,结合多源时序影像以及DSM影像,基于机器学习分类方法进行研究区的土地覆盖类型快速监测。
本文已刊登于《地理空间信息》2021年9月第19卷第9期
文章作者:熊元康、张鸿辉、梁宇哲、罗伟玲、洪良
土地利用和覆盖变化(land-use and land-cover change,LUCC)记录了人类在地球表面的空间格局活动,是导致生物多样性减少、气候变化、生态环境演变、生物化学循环乃至全球变化的主要因素[1、2]。快速、准确、全方位地获取一个地区的土地覆盖变化信息,可以为该地区的社会经济发展、生态环境建设、国土空间规划等提供重要的基础数据。近些年来遥感技术因其监测范围广、实时性强以及使用成本低等诸多优点已被广泛地应用于土地覆盖变化监测[3]。
目前,基于遥感影像的土地覆盖变化监测方法根据变化监测对象的不同,概括起来可以分为三大类:(1)基于像素级的土地覆盖变化监测方法。该方法直接利用像元的光谱特征值,通过利用多时相的遥感数据,进行影像间的差值、比值等代数运算进而获取差异影像,然后利用经验或通过样本集获得的阈值进行土地覆盖变化监测,如于冰等[4]通过对GlobeLand30数据进行重编码等操作,提出了一种基于像元转换的土地覆盖变化监测方法。(2)基于特征级的土地覆盖变化监测方法。该方法通过利用不同地类所表现出来的光谱特征、纹理特征等进行土地覆盖变化监测,该方法较基于像素级的土地覆盖变化监测方法而言不易受遥感影像时相变化的影响,差异信息更加突出,监测精度更高,是目前土地覆盖变化监测的主流方法之一,如De Alban等[5]结合Landsat数据以及L波段SAR数据所计算的各类指数(如NDVI、EVI等),利用随机森林分类器成功提取了缅甸南部Tanintharyi地区的土地覆盖动态变化信息。(3)基于对象级的土地覆盖变化监测方法。该方法主要针对高分辨率的遥感影像,通过利用多尺度分割生成不同的基元对象,然后结合基元对象的特征进行土地覆盖变化监测。该方法较基于像素级以及特征级的土地覆盖变化监测方法而言能获取更加丰富的特征信息,便于提高分类精度,如吴田军等[6]基于对象级的土地覆盖变化监测方法,利用Spot 4的多时相数据成功提取了广东省东莞市东北区域2005-2008年的土地覆盖变化信息。
目前,使用中高分辨率遥感影像在我国南方地区进行大范围的土地覆盖动态变化监测的研究较少(四季多雨,无云数据更加难以获取),且多集中于利用统计数据与土地利用数据相结合的方法进行土地覆盖动态变化监测[7]。为解决大范围的土地覆盖变化监测所面临的低分辨率遥感影像混合像元严重和中高分辨率遥感影像监测范围小以及重返周期长等问题,本文以广东省为研究区,基于Google Earth Engine (GEE)云平台,结合使用中等分辨率的Sentinel-2和 Landsat 7-8等多源遥感数据,通过构建多元时间序列影像进行广东省的土地覆盖动态变化监测。GEE云平台是一个能在大尺度范围下进行遥感数据处理以及分析的云平台,该平台提供了一个完备的集成环境, 目前,国内外多个研究组基于该平台开展了各种对地观测研究,如水稻遥感制图[8],耕地遥感提取[9],农作物种植结构提取[10]。
广东省地处中国大陆最南部,其东邻福建,北接江西、湖南,南临南海,西连广西,属于热带或亚热带季风气候区,地理范围为109°45′~117°20′ E, 20°09′~25°31′ N,该地区以广州市为中心,东起潮州市,西至雷州市,横跨21个地级市(图1)。全省陆地面积为17.97万km2,地势表现为北高南低,地貌类型复杂,北部、东北部和西部都有较高山脉,中部和南部沿海地区多为低丘、台地或平原[11]。随着广东省各地区的城市化和工业化的快速推进,耕地和林地在被不断地被蚕食,土地可垦率降低,土地后备资源严重不足,导致该地区人地矛盾日益突出[12]。因此,快速、准确、全方位地获取该地区的土地覆盖变化信息,可以为该地区的社会经济发展、生态环境建设、国土空间规划等提供重要的基础数据。
图1 研究区位置与验证样本点的空间分布
(审图号:GS(2016)2929)
1.2.1 遥感数据
由于广东省四季多雨,无云数据难以获取,加上中高分辨率遥感影像监测范围小以及重返周期长,使用单一数据源的中高分辨率影像不能满足大范围土地覆盖变化监测的需求,因此本文结合使用中高分辨率的Sentinel 1-2和 Landsat 7-8等多源遥感数据进行研究区内的土地覆盖变化监测,本文使用到遥感影像数量与遥感数据如表1所示。
表1 本文所使用的遥感影像数量
1.2.2 地面参考数据
本文通过结合野外实地考察、航拍影像(0.2m)、Google高清影像、Planet高清影像(5m)以及土地利用数据将研究区内的土地覆盖类型分为6大类(表2所示),并根据以上数据集获得训练数据集。
表2 分类计划表
本文利用Sentinel-2、Landsat-8、Landsat-7自身的质量评价波段(Quality Assessment,QA)进行相应的去云处理。同时由于不同传感器在设计上的差异,导致了不同传感器具有不同的光谱响应函数(Spectral Response Functions, SRF)。比如,Sentinel-2与Landsat-7的数据在红波段的均方根误差(Root Mean Square Error, RMSE)超过了8%[13]。为了减小由于不同传感器的不同光谱响应函数所带来的误差,我们以Landsat-8数据为基础,将Sentinel-2以及Landsat-7数据相应的波段进行相关的线性转换[14、15],并将所有数据的分辨率重采样至30m。
土地覆盖变化过程的监测与分析主要的依据是遥感影像时间序列的变化特征信息,所以在构建时间序列时,时序特征的选择变得尤为重要。通过对研究区内土地覆盖变化类型进行分析后,我们发现研究区内的主要的土地覆盖变化过程为:耕地或林地转变成建筑用地、耕地转变成鱼塘或鱼塘转变成耕地以及耕地变成园林地等。基于以上分析,我们选择以下特征作为时序特征进行土地覆盖变化监测:
(1) 归一化植被指数(NDVI)
归一化植被指数(Normalized difference vegetation index,NDVI)常常被作为特征参数来评估地表植被的生长状况[16],NDVI表达了红波段(植物吸收强烈)与近红外波段(植被反射强烈)之间的关系,因此能良好地区分植被与建筑用等,其计算公式如下所示[17]:
其中代表近红外波段的反射率,
代表红波段的反射率。
(2) 归一化建筑指数(NDBI)
归一化建筑指数(Normalized Difference Build-up Index,NDBI)常常被用于城镇建设用地提取,NDBI表达了城镇建设用地在近红外和中红外具有高反射率值的趋势,而其他地物具有低反射率值的趋势,其计算公式如下所示[18]:
其中代表近中红外波段的反射率,
代表近红外波段的反射率。
(3) 改进的归一化差异水体指数(MNDWI)
改进的归一化差异水体指数(Modified Normalized Difference Water Index,MNDWI)是徐涵秋[19]为了改进NDWI[20]提取水体信息的局限性(影像中有建筑阴影的水体提取效果不佳)而提出来的,MNDWI使水体与建筑物的反差明显增强,减少了背景误差,因此能良好地区分水体与建筑等,其计算公式如下:
其中代表绿波段的反射率,
代表近中红外波段的反射率。
(4) SAR影像时序特征
针对研究区内长时间序列无云数据难以获取等问题,结合合成孔径雷达(Synthetic Aperture Radar,SAR)不受云雨雾等自然条件影响以及全天候等特性,利用不同地类的不同散射机理[21],进而区分水体、植被以及建筑等土地覆盖类型。本文将Sentinel-1的VV极化数据作为研究区土地覆盖变化监测的雷达数据,同时为了将VV极化数据与NDVI、NDBI以及MNDWI数据更好地结合起来,采用以下公式对其进行归一化处理:
其中代表研究区内SAR长时序数据上的最大VV极化散射系数,其中
代表研究区内SAR长时序数据上的最小VV极化散射系数,
代表研究区内长时序上某一时期的VV极化散射系数。
本文根据在2.1中所选取的时序特征,通过Google的高清影像,选取研究区内几个典型土地覆盖变化类型进行时序光谱响应分析(图2)。如从图2可以得知,在耕地变成建筑用地的过程中,NDVI以及VV后向散射系数值在不断地下降,而MNDWI以及NDBI值在地类表现为耕地时随着时间的变化出现较大的浮动,而在地类转变成建筑用地时随着时间的变化表现的较为平稳;在林地变成建设用地的过程中,NDVI以及MNDWI值随着时间的变化表现出下降的趋势,而NDBI以及VV后向散射系数值随着时间变化表现出逐步上升的趋势;在林地变成裸地的过程中,NDVI、MNDWI以及VV后向散射系数值随着时间变化表现出逐步下降的趋势,而NDBI值表现出逐步上升的趋势;在水体变成裸地的过程中,NDVI、NDBI以及VV后向散射系数值随着时间变化表现出上升的趋势,而MNDWI值随着时间变化表现出下降的趋势。
图2 各种土地覆盖类型的时间序列
本文分别利用随机森林分类(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)以及回归分类决策树(Classification and Regression Tree,CART)进行研究区的土地覆盖类型提取。其中RF以及SVM已被广泛地应用于土地覆盖类型分类,并取得了良好的分类结果,而CART易于表达且能很好的解释某些特定的规则[22]。
RF是一种集成学习方法,它使用bootstrap抽样技术从原始数据集中抽取训练集,并通过训练集构建CART决策树。影响RF分类器性能与效率的最主要参数为决策树数量、候选特征子集以及叶节点最小样本数。本文将这三个参数设置为:随机森林分类器的决策树数量=100;候选特征子集=4;叶节点最小样本数=1。
SVM是一种非参数机器学习算法,其核心是找到一个最优的超平面作为高维空间中的决策函数进而将输入向量分成为不同的类别。其中核函数的选择以及cost参数是影响SVM性能与效率的最主要参数。在本文研究中,线性函数被选为SVM中的核函数并且将cost参数设置为100。
CART是一个在二进制递归分区过程中成长的决策树,它通过子集内变量的最大方差和子集内变量的最小方差将训练数据集分成不同的类别。其中树的最大深度参数决定了CART模型的复杂性,大的深度可能具有更高的精度,但也会增加过度拟合的风险。综合以往的研究情况以及本文研究的实际需求,本文研究将树的深度参数设置为10。
对遥感影像分类结果进行精度评价是十分重要的一个工作[10],为了保证精度验证的准确性,我们分别选择了总体精度(Overall Accuracy, OA)以及F-score作为土地覆盖变化监测结果的精度评价指标。这个两个精度评价指标都来源于混淆矩阵,其中OA用来评价整体算法的有效性,而F-score用来评价每一类的分类精度。
为了对土地覆盖类型变化监测的结果进行精度评价,本文通过分层随机采样在研究区内生成了1000个验证样本点(图1),并通过人工目视解译判读其是否为土地覆盖类型发生变化的区域,进而获得587个非变化样本点,413个变化样本点。根据精度评价的结果可知(表3),RF分类的变化监测的总体精度为83.5%, F-score为0.82。SVM分类的变化监测的总体精度为73.5%,F-score为0.58。CART分类的变化监测的总体精度为70.9%,F-score为0.51。从精度评价的结果来看,RF的表现最优,SVM次之,而CART结果最不理想。
表3 分类精度
根据2.1中所构建的多元分类特征,在GEE云平台上分别融合生成2017年、2018年研究区内的多元分类特征影像(49个特征波段,12个NDVI时间序列波段、12个MNDWI时间序列波段、12个NDBI时间序列波段、12个VV后向反射系数时间序列波段,1个Slope波段),并同时利用在1.2.2中收集到的训练数据集进行RF、SVM以及CART训练,以建立研究区内不同的土地覆盖类型监测模型。在此基础上,利用训练好的RF、SVM以及CART分类模型进行研究区内2017年、2018年的土地覆盖类型监测,其结果如图3所示。
图3 广东省2017-2018年土地覆盖类型监测结果
根据3.1中获得的2017年、2018年的广东省土地覆盖类型分类结果,采用基于空间叠置分析和统计原理分析的分类后变化检测方法进行以年为单位的土地覆盖变化监测,其监测结果如图4以及图5所示。在此基础上,本文对研究区内的土地覆盖变化区域的空间分布状况进行了统计,发现研究区内土地覆盖发生变化的区域主要集中在珠三角地区(广州市等9个地区),其次为粤东地区(潮州市等4个地区),最后为粤西地区(湛江市等3个地区)与粤北山区(清远市等5个地区)。由于珠三角地区人口的集聚和工业的发展,因此其土地覆盖变化类型主要为耕地或林地转变成建筑用地或工业用地。粤东部分地区由于人口众多,因此其土地覆盖变化类型主要为耕地或林地转变成建筑用地。粤西地区和粤北山区是重要的农业生产空间,因此其土地覆盖变化类型主要为耕地转变成鱼塘或鱼塘转变成耕地以及耕地变成园林地。
为了发掘影响土地覆盖变化的潜在因素,本文结合2004年至2018年广东省的各类统计数据,对广东省的土地覆盖变化进行分析,发现影响广东省土地覆盖变化空间分布的主要原因为人口增长、区域社会经济发展以及政策变化。在人口增长方面(图6a),珠三角地区每年的平均人口增长为99.2万人,粤东地区每年的平均人口增长为4.6万人,粤西地区每年的平均人口增长为7.8万人,粤北山区每年的平均人口增长为8.8万人;在区域社会经济发展方面(图6b),珠三角地区每年的平均生产总值增长为5031亿元,粤东地区每年的平均生产总值增长为386亿元,粤西地区每年的平均生产总值增长为438亿元,粤北地区每年的平均生产总值增长为281亿元;在政策变化方面,其主要体现为政府通过制定发布相关的政策来干预、调整土地的使用,如加强基础设施建设等,通过研究区内各地区的固定资产投资(基本建设投资、更新改造投资、房地产开发投资)情况可知(图6c),珠三角地区每年的平均固定资产投资增长为1833亿元,粤东地区每年的平均固定资产投资增长为397亿元,粤西地区每年的平均固定资产投资增长为290亿元,粤北地区每年的平均固定资产投资增长为242亿元,进而导致研究区内的建筑用地与耕地面积的比例不断增加,即建筑用地面积不断增加,耕地面积不断减少(图6d)。
图4 广东省2017-2018年土地覆盖类型变化监测结果
图5 珠江口2017-2018年土地覆盖类型变化监测结果
图6 广东省土地覆盖变化的潜在因素
快速、准确、全方位地获取一个地区的土地覆盖变化信息,可以为该地区的社会经济发展、生态环境建设、国土空间规划等提供重要的基础数据。本文以广东省为研究区,通过分析研究区内的主要土地覆盖变化类型,本文选择了NDVI、MNDWI、NDBI、VV后向散射系数的时序影像以及DSM影像作为研究区土地覆盖类型监测的特征波段影像,同时结合训练数据集和RF、SVM以及CART分类器进行了研究区内2017年以及2018年的土地覆盖类型监测,并在此基础上进行了研究区内的土地覆盖变化监测,通过对土地覆盖变化监测结果进行分析后,本文得出以下主要结论:
(1)构建的49个分类特征波段以及RF分类器能较好的适应于研究区内的土地覆盖类型监测。较SVM以及CART分类器而言,RF分类器具有最高的土地覆盖变化监测精度,其土地覆盖变化监测的总体精度为83.5%,F-score为0.82。
(2)根据对研究区内的土地覆盖变化监测结果的分析,发现研究区内土地覆盖发生变化的区域主要集中在珠三角地区,其土地覆盖变化类型主要为耕地或林地转变成建筑用地或工业用地;其次为粤东地区,其土地覆盖变化类型主要为耕地或林地转变成建筑用地;最后为粤西地区与粤北山区,其土地覆盖变化类型主要为耕地转变成鱼塘或鱼塘转变成耕地以及耕地变成园林地。
(3)结合统计年鉴等相关数据,对研究区内的土地覆盖变化进行分析后,发现影响研究区内土地覆盖变化空间分布的主要原因为人口增长、区域社会经济发展以及政策变化。
参考文献
责任编辑:林冬娜
原文始发于微信公众号(国地资讯):基于Google Earth Engine与多源遥感数据的土地覆盖变化监测