规划问道

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派


街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派
点击图片,查看课程详情
12月18日开课,火热报名中!




街景影像是感知城市物质环境的一种新型地理大数据。这种数据以人的视角详尽描绘了城市的可视环境,同时也隐性地表达了可视环境背后有关城市功能、社会经济和人类活动的信息。然而,传统的数字图像处理技术对街景影像的处理能力有限,不能高效地理解其中的语义信息。近年来,随着人工智能领域的不断发展,图像分析和机器学习方法取得了突破性的进展。以深度学习和计算机视觉为代表的前沿人工智能技术,为挖掘街景语义信息、理解和定量表达场所物质空间、建成环境的特征提供了强有力的支持。在此背景下,街景影像被广泛应用于地理学、城市规划等众多领域,并在此过程中出现了大量的新方法和新视角,为基于大数据的城市环境研究、人地关系研究、空间数据挖掘与知识发现研究提供了新的思路。本文综述了基于街景影像和人工智能技术的相关研究,从深度学习和计算机视觉两个方面对街景影像分析的支撑技术进行了梳理,并从场所物质空间量化、场所感知以及场所语义推测3个方面对街景影像研究的应用方向进行了总结,对其在发展过程中面临的数据稀疏性问题、分析方法的严谨性问题进行了归纳,同时讨论了未来研究的方向。



1 引言

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

大数据时代,导航定位装置、移动设备和地图服务的普及,带来了一种新型的地理大数据—街景影像。高密度覆盖城市路网的街景图片、社交媒体照片等影像数据源,从不同的视角对城市物质空间进行了描述,从而有效支持城市物质环境的量化研究。街景影像是表达城市环境的一种新型的大数据源,其观测视角更接近于城市居民,所表达内容丰富。街景影像不但可以详尽地描绘城市物质空间的可视环境,例如建筑物、道路、自然地物等,同时可以隐性表达不可视环境的,包括有关城市功能、社会经济和人类活动的信息。


海量街景影像的出现,为量化和研究场所中人类活动以及场所物质空间提供了重要的数据基础。场所(place)是地理分析中的基础概念,它是联系人和地理环境相互作用的纽带,也是表达地理知识的基本单元。如何形式化表达场所及场所的物质空间,并在此基础上揭示人的行为模式与地理环境空间格局之间的关系,一直是地理信息科学等领域所关注的问题。然而,传统方法对场所物质空间的表达和量化分析有一定的局限性。在数据源方面,传统研究大多基于小规模的现场调查、实地测量数据,难以对大范围区域进行量化评估;基于遥感影像的研究具有大尺度对地观测的优势,但不适用于微观建成环境的全面、整体和精细化的分析。在方法方面,传统的统计分析方法和经典模型难以对日益复杂的城市环境、居民活动模式及其相互作用关系进行建模。


近年来,人工智能技术不断发展,应用领域不断扩大,在图像识别、语音识别、自然语言处理、机器人等领域取得了瞩目的进展。在图像理解方面中,以深度学习和计算机视觉为代表的人工智能技术日渐成熟,为挖掘街景语义信息、理解和定量表达场所物质空间的内容提供了强有力的支持。在多源街景数据和人工智能相关技术的支撑下,场所物质空间的研究进入了新阶段。目前,街景影像已经被应用于地理学、城市规划、城市经济学、建筑设计、公共卫生、环境心理学、能源、旅游等学科和领域。这些研究尝试对本领域的理论问题进行回访和重塑,并在此过程中涌现了大量的新方法,为基于大数据的人地关系研究、建成环境量化研究、空间数据挖掘与知识发现研究提供了新视角(龙瀛和周垠,2017;张丽英 等,2019;Long和Ye,2019)。


本文对近年来基于街景影像和人工智能技术的相关工作进行综述;归纳了街景影像基于人工智能技术的主要处理方法和应用方向;并对其在发展过程中面临的挑战,以及未来研究的机遇进行了讨论。



2 街景影像介绍

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

广义的街景影像包含了街景图片、社交媒体照片两大类。其中街景图片是指谷歌地图(Google Maps)、百度地图、腾讯地图等地图服务商利用街景车沿城市路网遍历拍摄采集获取的图片,同时也包含Mapillary等众包平台提供的按照一定的标准规范,用户拍摄上传的图片。此类图片一般以全景图(panorama)的形式存储,包含了拍摄位置的360°全景视觉信息。在实际获取和使用中,每个位置的视觉环境可以由多张面向不同方位的自然视角的街景图片表达。图1(a)、图1(b)分别展示了全景视角的街景图片和对应的多张自然视角的街景图片。


街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

图 1 街景图片的两种形式


社交媒体照片是指在社交媒体平台上用户分享的、拍摄城市室内外景观的众包照片,此类平台包括新浪微博、Twitter、微信等主流社交媒体,也包含Flickr、Panoramio等摄影爱好者、旅游爱好者的分享平台。街景图片一般只覆盖街道内部的物质空间,作为补充,社交媒体照片可以对街区内部街景车不可达的空间进行描述,例如公园和校园等。图2(a)—图2(d)分别展示了腾讯街景图片和Panoramio社交媒体照片的示例,以及在北京五环内的空间分布。可以看到街景图片严格按照路网分布,而社交媒体照片分布在城市的工作、休闲娱乐、旅游等的主要场所中。可以认为前者反映了客观的城市街道景观,而后者在某种程度上表达了特定群体对城市的主观体验和认知。


街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派
图2 街景影像的类型及空间分布特征

街景影像具有覆盖范围广、覆盖密度高、表达内容详尽、获取效率高等特点。首先,在覆盖范围方面,街景图片已经覆盖了全球大部分的城市。截止2019-07,腾讯和百度街景覆盖了中国全部的293个地级市,谷歌街景已经覆盖了全球195个国家的大部分城市,众包街景平台Mapillary已经存储了超过5亿张来自全球用户上传的街景图片。其次,在覆盖密度方面,街景图片已经高密度地覆盖了城市的各级别路网,相邻采样点之间构成的视觉图片可以无缝衔接,构成了城市街道物质空间的完整表达。从图2(c)展示的街景图片分布可以看出,街景图片非常密集地覆盖了北京五环内大部分的机动车道路。再次,在表达内容方面,街景图片详尽、精细地表达了在人的视角下城市物质空间的实际状态。例如,谷歌街景的最高尺寸可达6656×13312像素,较高清的图片保证了街景图片对城市物质空间表达的精细程度,并且在相关人工智能技术的进一步支持下,实现对场景语义目标的精确提取和对场景内容的高效理解。最后,在数据获取效率方面,谷歌、腾讯、百度等地图服务商分别提供了商用的和一定条件下免费使用的街景数据,通过相关API即可调用下载,流程简单方便。同时可对数据进行一定程度的定制,例如在获取图片的过程中可以设定图片的拍摄位置、时间、俯仰角、类型(全景/自然视角)等,满足不同的研究需求。

结合街景影像的特点,其应用领域可以分为两个方面:对地观测和社会感知。在城市对地观测中,街景影像可以作为与遥感影像的补充(宫鹏,2019)。一方面,遥感影像通过卫星、飞机等飞行器以俯视的视角拍摄城市陆地表面,被广泛地应用于土地利用分析、大气污染分析、生态环境分析、城市热岛分析等,适用于对大尺度区域的宏观观测。但受限于拍摄视角,遥感影像不擅长对城市微观建成环境进行观测,例如以人的视角对天空开放度、绿视率、街谷指数等城市建成环境研究的常用指标的获取比较困难。而街景影像通过地面摄影设备,以立体剖面图的视角拍摄城市物质环境,表达了更细节的视觉内容。相关研究也对比了遥感视角和街景视角下计算出的指标对人们的行为和感知的不同影响,指出从街景中获取的视觉指标与个体步行性、慢性病、心理健康状况等指标的相关性更高(Wang等,2018,2019b;Lu等,2019;Kang 等,2020)。另一方面,由于街景影像的拍摄视角与人视角近似,表达了城市居民在日常生活中观测到的场所物质空间,可以帮助理解人与城市环境的相互影响机制。例如分析不同场所物质空间下人们的场所感、活动状况、对场所的认知情况等。

在利用大数据进行社会感知的研究中,街景影像可以作为个体人类活动、社会经济数据的补充。社会感知指的是借助于各类地理空间大数据研究人类时空间行为特征,并进而揭示社会经济现象的时空分布格局、联系以及演化过程的理论和方法(Liu等,2015)。街景影像可以帮助反演城市物质环境背后的人类活动模式和社会经济环境。例如,街景中呈现了建筑物的类型、年代、风格,街道的形态、活力,以及植被的类型、面积等,这些信息都与土地利用类型、城市功能、人类活动强度等紧密相关,可以用于丰富场所语义(place semantics)的内涵,进而辅助其他类型的地理空间大数据来进行社会感知(Zhang等,2019a)。


3 基于人工智能的街景影像分析方法

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派
基于人工智能的街景影像分析,是将深度学习、计算机视觉等人工智能前沿领域的算法,贯穿街景影像的处理分析方法和面向城市的应用实践;高效精准地处理自然影像数据,催生新的遥感应用,促进城市物质空间分析模式的转变。在深度学习、计算机视觉等人工智能技术的支持下,街景影像开始被广泛应用。对比传统方法,基于数字图像处理和传统计算机视觉的方法大多采用浅层次、中等层次视觉特征和手工定义特征,很难完整、高效地表达图片场景中的深层次语义信息,限制了街景影像在城市研究领域的大规模使用。而当前在深度学习支持下的计算机视觉技术可以更高效地识别图片中的语义对象、场景内容,为挖掘街景语义信息、理解和定量表达场所物质空间的内容提供了强有力的工具。以下我们分别从深度学习和计算机视觉两个方面,对与街景影像分析较为相关的领域和技术进行梳理。

3.1 深度学习(Deep Learning)

深度学习是一种以多层人工神经网络为基本架构,对数据进行表征学习的算法,是机器学习的一个分支。深度学习在自主特征学习、特征表达、问题建模上被认为优于传统特征工程的方法。相比较经典的三层神经网络模型,深度学习模型层数更深(可达上千层),并在发展演变的过程中解决了模型求解(Rumelhart等,1986)、非线性学习(Rumelhart等,1986)、深层网络训练中梯度消失(Hinton和Salakhutdinov,2006;Nair和Hinton,2010)、高维数据的表征(Krizhevsky等,2012)等关键问题。按照任务类型和模型原理的不同,深度学习可以分为自动编码机(Auto Encoder)、生成对抗神经网络(GAN)、递归神经网络(RNN)、深度卷积神经网络(DCNN)等,其中深度卷积神经网络主要面向图片数据分析,其标志性模型AlexNet(Krizhevsky等,2012)于2012年获得ImageNet 1000类物体图片识别大赛(Russakovsky等,2015)的第1名,以低于15%的错误率远远超过采用传统方法的模型(26%错误率),从此深度学习进入公众视野,进入高速迭代和大规模应用时期,在图像识别、语音识别、文本分析、无人驾驶、游戏竞技等领域都获得了瞩目的进展(LeCun等,2015)。

3.2 计算机视觉(Computer Vision)

计算机视觉旨在利用成像设备和计算机代替人眼对目标进行识别和测量,从图像或高维数据中获取信息。传统的计算机视觉方法多采用浅层次、中等层次和手工设计的特征来表达图像,诸如色彩频谱,纹理,形状,尺度不变特征变换 (SIFT) (Lowe,1999),方向梯度直方图(HOG)(Dalal和Triggs,2005), GIST(Oliva和Torralba,2001)等,此类特征需要引入大量的专家知识进行特征工程,而且对图像表达的效率有限、对不同任务的泛化能力有限。2012年AlexNet的提出解决了深度学习在处理图片这种高维数据时的特征表达问题,使得深度学习技术可以应用于图像理解,可以自主学习与任务相关的视觉特性。深度卷积神经网络(Deep Convolutional Neural Networks),就是在多层神经网络的基础上,引入了卷积(convolution)、池化(Pooling)等操作,使得模型可以对图片的内容层层抽象,在实现数据降维的同时保留最高效的信息,最终获得一个较低维的特征,进而将问题简化为分类、回归等经典机器学习任务。

针对于计算机视觉任务的深度学习模型,在图像的物体分类方面,代表性结构有AlexNet(Krizhevsky等,2012),VGG(Simonyan和Zisserman,2014),GoogLeNet(Szegedy等,2015), ResNet(He等,2016), DenseNet(Huang等,2017)等。这些模型使得深度卷积网络可以更深、表达能力更强、学习更高效。更重要的是,由于此类模型已经被视为计算机视觉任务的一般性网络结构,在实际执行实际任务前,往往先用此类结构进行图片的特征提取,再利用任务相关的特殊网络结构进行分析(Zhou等,2014)。例如,图片的语义分割模型旨在对图片中所有像素点的类别进行分类,在工作流程上,模型首先对图像进行下采样特征提取,然后对提取的特征上采样,生成与输入图片尺寸一致的分类图。而图像的下采样特征提取部分就由上述经典网络结构完成,一般不进行重新设计。事实上,研究人员发现此类网络结构在ImageNet(Russakovsky等,2015)、Places(Zhou等,2018)等大型自然影像数据库上训练的出的模型,其抽取的深度特征具有良好的泛化能力,这种预训练模型可以被单纯地作为图片的特征提取器,代替传统的计算机视觉特征,应用于各种计算机视觉任务(Zhou等,2014)。

另一方面,模型的泛化能力、识别的类别数目很大程度上取决于训练集的情况。在用于城市场景理解的数据集构建方面,面向物体检测识别的开源训练集包括VOC 2012数据集(Everingham 等,2010),其中包含标注了20类共计2.7万个物体;Microsoft COCO数据集(Lin等,2014),其中包含标注了80类物体的20万张图片等。面向物体语义分割的开源训练集有ADE20K数据集(Zhou等,2019),包含对150类共计43.5万个物体的像素级标注;Cityscapes包含对30类共计6.5万个物体的像素级标注(Cordts等,2016)。在场景类型和属性分类方面,布朗大学建立了SUN102 场景属性数据集(Patterson和Hays,2012)其中包括 14000 张场景图像,涉及场景描述的102 种场景属性,来衡量场景是否闭合/开放、室内/室外、自然/人造等。麻省理工学院人工智能实验室标注了Places 场景类型数据集(Zhou等,2018),将 1000万张自然影像根据影像中的场景类型标注为数百类场景;随后的工作以场所为单位,对世界各地的知名场所构建了更加丰富的语意描述(Huang 等,2020)。当前的深度学习模型都可以基于此类数据集进行端对端(End to end)训练并获得较高的准确度。训练后的模型可以直接应用于各类街景、社交媒体照片等数据,为基于图像的城市物质环境量化分析提供了研究基础。


4 街景影像在城市研究中的应用

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派
街景影像在早期的应用中,主要集中在对街景元数据的分析,例如利用社交媒体照片的位置点、标签文本内容来对城市功能、旅游热点区域进行挖掘。随着计算机视觉、深度学习等人工智能领域的发展,一系列针对图片语义内容分析的方法日渐成熟。得益于人工智能技术的支持,街景影像在城市研究中的应用更加广泛,不但实现了对物质空间本身的量化表达和分析,而且可以对物质空间背后蕴含的社会经济及人类活动的语义信息进行推测。以下从场所物质空间量化、场所感知、和场所语义推理3个方面梳理了近年来基于街景图片和人工智能技术的应用。

4.1 基于人工智能的场所物质空间量化

场所物质空间量化指的是从街景图片对视觉对象进行识别、对场景类型和属性进行分类等,进而辅助场所的相关研究。在视觉对象识别方面,主要分为物体检测识别(object detection)和物体语义分割(object segmentation)两大类,如图3(a)、图3(b)所示,前者可以识别出图片中规则形状的物体位置、类型等信息,而后者可以对图片的每一个像素点进行分类。比较成熟的面向物体检测识别的深度学习模型有Faster-RCNN(Ren等,2015),SSD(Liu等,2016b)等,语义分割模型有PSPNet(Zhao等,2017), MaskRCNN(He等,2017a)等,可以对城市场景中常见的150类物体进行识别,像素级的准确度可达80%以上。在对场景类型和属性的分类方面,在Places场景类型数据集、SUN场景属性数据集训练下的ResNet深度学习模型,可以对超过400种场景类型,超过100种场景属性进行分类。如图3(c)所示为场景类型,场景属性的识别样例。

结合上述方法,通过对大范围区域的街景图片进行识别,我们可以获取场景要素、场景属性的空间分布。在要素层面,例如,麻省理工学院感知城市实验室(MIT Senseable City Lab)对全球数十个城市的街景图片进行分析,利用深度学习模型提取图片中植被的占比,并观察和对比整个城市范围内绿化的情况(Li等,2015;Seiferling等,2017)。Long等对中国200多个城市的绿化水平进行了分析(郝新华和龙瀛,2017;Long和Liu,2017)。结合街景图像的拍摄姿态、几何特征等信息,可以估计在一定观测视角下的天空开放度(Gong 等,2018;Ye 等,2019),太阳辐射覆盖面积(Li等,2018)等,从而进一步估计城市建成区的光伏潜能(Li和Ratti,2019;Liu等,2019)、车辆行驶可能造成太阳目眩的区域(Li等,2019)等。不仅如此,通过聚合相似类别的视觉要素,可以观测某种层级概念的空间分布。例如,Zhang等(2018b)从动、静、人造、自然等角度梳理了64类语义物体的树状结构,从各个层级观察物质空间的分布情况。在场景层面,街景中描述的场所物质空间本身可以反映城市的土地利用类型情况。相关研究利用深度学习技术,结合遥感、POI兴趣点数据,可以更精确的识别城市土地利用类型(Li等,2017;Cao等,2018,2020;Srivastava等,2020;Ye 等,2020;Suel 等,2021)。通过识别水体、广场、公园、道路等场景类型,相关工作重访并量化了Kevin Lynch提出的“城市意象(The Image of the City)”概念(Liu等,2016a;Huang 等,2021)。

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

图 3 基于街景影像的场所物质空间量化方法

4.2 基于人工智能的场所情感感知

场所由于其视觉环境、体验、居民活动的不同而对人产生不同的场所感。MIT Media Lab的Place Pulse项目采集了来自数十万名志愿者对全球上百万个街景图片的情感评价,包含安全感、生机感、压抑感等维度(Salesses等,2013;Naik等,2014)。利用基于此数据集训练的深度学习模型,可以模拟个体居民对于城市场景的情感感受,从而对城市场景进行评估(Dubey等,2016)。基于此,Zhang等(2018a,2018c)对北京和上海的街景进行了实证研究,分析了居民情感(安全感、压抑感等)与物质空间要素(植被、建筑、围墙等)之间的关系并研究了安全感与实际犯罪情况的“感知偏差”(Zhang 等,2021);Wang等探索了物质空间要素与居民慢性病、心理健康、活动强度之间的关系(Roda 等, 2016;Helbich等,2019;Wang等,2019a,2019b,2019c)等。通过识别社交媒体照片中人们的面部表情,也可以理解在不同类型、地域的场所中人们情感感知的差异(Kang等,2017,2019)。

在针对城市视觉感知评估方面。如图4所示,麻省理工学院感知城市实验室等利用全球近20个城市的社交媒体照片,对城市间的相似性做了度量,并挖掘其中最有城市代表性的视觉场景(Zhang 等, 2019b)。类似方法可以用来度量室内视觉环境的特点(Zhang 等,2016;Wang 等,2019d)。此外,相关学者利用街景和人工智能能技术对街道空间品质(Tang和Long,2019),城市美感(Quercia等,2014;Seresinhe等,2017)、街道可步行性(Yin和Wang,2016;Su 等, 2019 ;Salazar Miranda 等,2021),街道建筑连续性(Liu等,2017),街谷类型(Hu 等,2020),城市建筑景观特色(Doersch等,2012;Yoshimura等,2019),不起眼的城市场所(Zhang 等,2020),城市更新乡绅化(Gentrification)(Ilic等,2019;Ma 等,2021),贫民窟区域(Ibrahim等,2019)等进行了研究。结合人工智能技术,街景图片提供了一个从场景、场所感知到整个城市物质空间感知的量化工具。

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

图 4 基于社交媒体照片和深度学习的城市视觉景观分析

4.3 基于人工智能的场所语义推测

麻省理工学院人工智能实验室的Antonio(2014)提出了“Looking beyond the visible scene”,旨在通过场景的可视信息,挖掘场景中蕴含的不可视知识(Khosla等,2014)。社会科学中也强调经济、社会相互作用对场所形成的重要性(Pred,1984)。事实上,空间和社会是相互构建的。街景中表达的城市场景不但描绘了场景中的可视信息,同时隐性地表达了可视场景背后的有关城市功能、历史、文化、社会经济和人类活动的信息。例如,如图5所示,仅仅给定单张街景图片,深度学习模型可以学习其反映的城市功能、土地利用类型信息,并估计图片所反映的场景附近平均每小时的人类活动量(Zhang 等,2019a;Zhu 等,2020)。通过识别和统计街区商铺招牌使用的字体类型,可以推断周边居民的收入水平(Ma 等, 2019)。类似地,通过识别美国社区停放的车辆情况,可以推断社区的收入、教育水平甚至是政治倾向(Gebru等,2017)。通过量化街区的场所变化情况,可以研究城市物质空间变化与社会经济水平变化的关系(Naik等,2017)。基于建成环境的破窗理论(broken window theory)(Wilson和Kelling,1982),街景图片可以一定程度地预测周边地区的犯罪情况(Arietta等,2014;He等,2017b;Suel等,2019)。基于房屋照片与房子周边环境状况,街景图片可以预测房价信息(Law 等,2018a,2018b;Fu 等,2019;Kang 等,2020b)。这些应用一方面得益于街景图片本身表达的丰富内容,另一方面得益于以深度学习为代表的人工智能技术,这些技术实现了对街景内容的挖掘和街景背后蕴含的语义信息的深层次理解。

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派


图5 深度学习模型学习街景中的城市场景信息并估计居民日出行曲线


5 街景影像应用的挑战与机遇

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

5.1 挑战—数据稀疏性与分析方法严谨性

街景影像目前存在稀疏性的问题,主要面临3个方面的挑战。首先,在获取性方面,街景影像目前大部分来源于谷歌、腾讯等地图服务商,街景数据的可获取性很大程度上依赖于此类企业的业务发展方向和数据提供政策。例如,谷歌在2018年开始对街景数据的下载进行收费,使得获取成本提高。其次,在数据时间特性方面,地图服务商不能保证街景数据的时效性。如,在百度街景在2013年上线以来,中国城市街道上每个位置平均只有两景不同时间拍摄的影像,使得针对城市物质空间变化的研究受限。最后,在数据空间特性方面,街景数据只对城市街道场所的物质空间进行覆盖,虽然社交媒体照片对城市街区内部的视觉环境有一定的覆盖,但受限于一定的用户群体(如游客、摄影爱好者),使得空间覆盖有偏。

街景影像在分析方法的严谨性方面也存在一定的问题。当前对街景图片的使用主要有两大趋势。第1种趋势是直接利用基于深度学习的预训练模型对街景进行分类或回归,此类方法可以预测街景明确的语义信息,如识别对象、场景类型等。但一方面预训练模型的训练集与实际应用的应用集分布有一定的差异,存在域适应(domain adaptation)的问题,使得模型预测精度较低,影响后续统计分析;另一方面大部分研究工作没有进行严格的统计分析和因果推断,例如经常忽视街景图片内视觉对象之间的相关性,忽视街景图片样本间的空间依赖性,忽略除物质空间以外的关键变量等。第2种趋势是利用深度学习模型提取场景的一般性特征,例如基于Places数据集的ResNet模型提取的512维特征(Zhou等,2018),来表达场景的整体特性,从而与其他场景之间、其他场所和区域之间进行视觉相似性、特异性的分析。由于此类方法使用的高维特征是由深度学习“黑箱”模型抽取,解释其特征表达的语义内容仍有困难,在研究过程中会造成结论的可解释性不足的问题。

5.2 机遇—众包数据与全新研究领域

在数据方面,日益发展的众包(crowdsourcing)平台、自动驾驶领域和城市基础设施建设的发展有望解决上述挑战。在诸如OpenStreetCam和Mappilary (Alvarez Leon和Quinn,2019)这样的众包街景共享平台中,每天有海量的来自世界各个城市的用户在分享自己周边环境的街景和视频,并随着用户和用户共享数据的日益累积,有望解决目前街景数据的空间覆盖率和时间采样频率问题。在自动驾驶领域,获取高精度的道路测量以及视觉数据已经成为一个必备条件,自然会带来更多、更高质量的街景、激光雷达数据。另一方面,作为城市基础设施的一部分,越来越多的摄像头视频数据不但提供了场所物质空间的视觉信息,同时也记录了城市空间中的个体活动信息。这些方向的不断推进有望解决街景的数据源与数据质量问题。
在研究方面,街景数据在近几年来已经被大量地用于科研和应用领域,但仍然处于一个初级阶段。一些针对城市物质空间更深入的问题仍然没有得到很好的回答。例如,城市物质空间有哪些构成要素,这些要素在城市中是否存在定量的普适性规律?在城市日益发展和扩张过程中,物质空间是如何进行演化而来的,其演化过程中是否存在一致性规律?城市物质空间和居民活动活动之间是如何相互影响的,在不同时间和空间尺度上构建二者交互是否存在一定的机制?借助街景影像,结合深度学习、知识图谱等手段,未来有望回答此类问题。


6 结论

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

在街景影像出现之前,一直缺少一种低成本、高效的途径来从人的视角对城市物质空间进行大范围详尽地记录,使得大部分与对城市物质空间、建成环境相关的研究受限。在人工智能技术的支持下,借助街景影像可以对城市物质空间的特点、规律、演变、对社会经济环境的影响和与人类活动的相互作用的机制进行更深入地研究。

本文针对近些年来基于街景影像和人工智能技术的场所物质空间研究工作进行综述,首先对街景影像分析的支撑技术进行归纳,进而从场所物质空间量化、场所感知以及场所语义推测3个方面归纳了街景影像研究的应用方向,并对其在发展过程中面临的挑战,以及未来研究的机遇进行了讨论。

参考论文:张帆,刘瑜.2021.街景影像——基于人工智能的方法与应用.遥感学报,25(5):1043-1054
本文转载自:遥感加油站



城市数据派推出街景大数据课程
零基础带你掌握实用的街景大数据技能
12月18日开课,火热报名中!
街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派
点击上图,查看课程详情

课程大纲:

街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~

原文始发于微信公众号(城市数据派):街景影像基于人工智能技术的主要处理方法和应用方向有哪些?丨城市数据派

赞(0)