规划问道

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派
点击图片,查看课程详情
12月18日开课,火热报名中!




引言

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

城市的快速增长使城市空间变得越来越复杂和具有挑战性。最近,街景影像技术为城市研究带来了新的机会,提供了前所未有的城市景观细节,为我们更好地理解城市空间和城市社会经济环境提供了深刻的洞察。


城市景观和城市功能是基于不同的空间尺度来组织的。通过在空间单元内分析街景影像,研究者可以更好地探索不同尺度的城市环境,从而更连贯地理解这些空间。然而,以往的研究主要侧重于对单张街景影像的分析,这种方法只能表示一个特定的城市场景(点),而不能有效地表达整个空间单元(面),如街道、格网或街区的特征。


在实践中,将街景影像用于表示城市空间单元面临一个重要挑战,即不同空间单元之间的街景影像数量差异很大。如图1所示,深圳的街景样本点在市区相对于郊区有更高的集中度。这是因为街景通常是按照路网采集的,而市区的路网通常比郊区更密集、更复杂。这导致不同空间单位之间的样本数量存在显著差异,从而影响了深度学习模型的数据集的每个样本长度不一致。针对此问题,先前的研究使用了一个预训练模型来从街景影像中提取特征,然后采用数值计算方法,如均值和最大值,将这些隐藏特征融合到空间单元内。然而,这种方法无法充分捕捉空间单元内街景影像之间的语义和空间关联,而只是构建了使用数值计算方法捕获的局部特征。


为了应对这一挑战,本研究提出了一种创新的视觉长短时记忆(Vision-LSTM)模块,用于从不同数量的街景影像中获取向量表示。这一模块结合了卷积神经网络(CNNs)和递归神经网络(RNNs)的优势。CNN用于提取每张图像的语义特征,作为空间单元的局部特征,而RNN用于捕捉这些局部特征之间的关联。受到自然语言处理的启发,该模块将不同数量的街景影像视为一个无序序列,从而能够有效地提取整体特征。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

图1. 深圳街景影像的空间分布。可以清楚地看到不同空间单位之间街景样本点的数量存在显著差异。


为了验证Vision-LSTM的有效性,本研究在深圳进行了一系列实验,旨在识别城市中的村庄。城中村是由于中国的快速城市化而产生的非正式定居点,它们通常具有复杂的住宅结构,展现出复杂的视觉形态和人类活动模式。为了实现准确识别结果,研究结合了三种类型的多模态信息,包括遥感图像、街景影像和社会感知数据。


实验结果表明,Vision-LSTM不仅能够有效捕捉街景影像之间的关联,还在空间单元尺度上具有优势,这充分结合了街景影像与其他数据。这些结果增强了街景影像在城市研究中的价值,也促进了基于多模态学习的城市研究,有助于深化我们对城市空间的理解。



模型框架

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

· Vision-LSTM

我们提出的Vision-LSTM模块,如图2所示,包括一个具有共享权重的卷积神经网络(CNN)和一个递归神经网络(RNN)。不同的街景影像数量在空间单元中可以被视为不同长度的图像集。为此,我们使用零填充方法,这是一种在自然语言处理中常用的技术,来处理这种可变长度的街景影像集。随后,图像集中的每张图像都单独输入到一个具有共享权重的CNN模型中,以提取单个图像的语义特征,并将输入图像集处理为图像特征集。值得注意的是,在零填充过程中添加的任何空白图像都会被忽略,确保它们在训练过程中不会影响模型参数。由于LSTM不考虑二维空间信息,在训练过程中,这些图像特征集以随机顺序作为时间步骤输入到LSTM中。得到的深度特征反映了从行人的视角观察到的物理环境,并根据街景影像集的不同长度,代表了空间单元的整体特征。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

图2. Vision-LSTM的模块结构


· 多模态模型

本研究提议了一个多模态深度神经网络,该网络使用卫星影像、街景影像和出租车轨迹数据的组合作为输入。这个模型的结构,如图3所示,包括三个分支,每个分支都负责从输入模式中提取不同的特征。在卫星影像分支中,采用ResNet18骨干模型来提取卫星图像正射视图的特征。同时,所提议的Vision-LSTM模块用于在街景影像分支中提取不同数量的街景影像的视觉特征。在出租车轨迹分支中,采用LSTM全卷积网络(LSTM-FCN)骨干模型,根据出租车轨迹学习出行量时间序列数据的移动性特征。最后,从所有分支提取的特征被连接起来,并通过一个softmax层进行城市和非城市村落的分类。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

图3. 多模态模型的结构



实验

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

本文以深圳市为研究区,分别采集了2016年的谷歌卫星影像,2016年的街景影像和2017年内一周的出租车数据。真实的城中村数据来自于Chen等人的文章,他们通过人工地对照卫星影像、街景影像和官方规划文件进行标注而来。本文以公里格网为基本研究单元,进行模型的训练和预测。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

图4. 研究区:深圳。(a) 城中村的空间分布;(b)和(c)分别是正规住区与城中村的街景影像。



结果分析

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

· 整体结果

本研究在验证数据集上显示模型具有91.6%的准确率、0.720的Kappa指数和0.773的F1得分。约20%的样本置信度低于0.7,但大多数样本的中位置信度为0.897,证明模型的优越性。从深圳2017年统计年鉴的GDP数据中,我们观察到高GDP区域如南山和福田具有较高置信度,而低GDP区如大鹏和光明的置信度也相对高。发展中的罗湖和龙华区的置信度较低,因为它们与城中村的特点相似。这意味着GDP和置信度之间存在某种关联,特别是在深圳的核心区域,如南山和福田,其分类表现尤为出色。随着城市化扩展,偏远区域的置信度也有所提高。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

图5. 正确标签的置信度分布。(a) 累积分布。(b) 国内生产总值(GDP)与每个行政区的平均置信度之间的散点图。(c) 空间分布。GDP数据来自2017年的深圳统计年鉴。


· 将街景影像融入多模态学习的有效性

为了验证街景影像在多模态学习中的效果,我们对单模态、双模态和多模态模型进行了对比,确保所有模型均使用相同的数据集和超参数。结合街景影像的Vision-LSTM模型以82.8%的准确率超过了其他单模态模型。基于遥感图像的模型准确率为81.8%,而基于出租车轨迹的模型准确率为71.9%。然而,当这些数据与其他图像结合时,效果显著提高。特别是结合卫星和街景影像的双模态模型,因为城中村具有独特的视觉特征。当所有数据源都融合时,多模态模型的准确率显著提高到91.6%,这进一步证明了街景影像在多模态学习中的重要性。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

表1. 单模态、双模态和多模态的模型评估结果比较。


· 融合不定长街景影像来表达城市空间的有效性

表格展示了四种统计融合方法及我们提出的在两种不同分辨率空间单元的Vision-LSTM模块的结果。在500米格网中,与融合遥感图像和出租车轨迹数据的双模态模型相比,无融合和平均池化方法没有观察到显著的改进。然而,最大池化和逐元素求和方法的表现不如双模态模型。值得注意的是,与平均池化方法相比,所提出的Vision-LSTM方法表现有显著改进。在250米格网上训练的模型存在类似的模式,但在500米格网上训练的所有模型的性能都明显优于250米格网。这种差异可能是由于模型在格网大小较小时只能捕捉到城中村的局部特征。


相反,使用500米格网使模型能够捕捉到城中村的更全面的视图。这些发现表明LSTM可以从图像特征集和长时间序列中提取有效信息。Vision-LSTM模块采用参数学习方法来提取关于城中村的基本信息的密集特征。此外,Vision-LSTM模块所需的参数数量较少,大多数可以由其他经典模型进行微调,这降低了多模态模型的计算资源和复杂性。需要说明的是,尽管Vision-LSTM在城中村案例中在格网系统内实施,但其适用性并不局限于特定的空间单元。在各种情境中,Vision-LSTM提供了一种有效融合不定长街景影像的灵活方法,可以适当地调整以适应不同的单元系统。


如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派
表2. 基于不同街景融合方法的模型评估结果比较。


结论
如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派
本研究研究提出了一个深度学习模块,该模块融合了数量不等的街景影像来表示城市空间单元的特征。该模块在识别深圳的城中村中得到应用,其整合到多模态模型中可以达到91.6%的准确率。结果表明,该模块在捕捉街景影像之间的复杂连接方面超越了常见的统计方法。通过使用这个模块,街景影像可以更广泛地应用,例如在不同空间尺度的城市研究和通过融合其他数据的多模态学习中。这种方法有可能加深对城市空间的理解,并可以应用于识别城中村之外的其他城市环境。


参考文献
如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派
Huang, Y., Zhang, F.*, Gao, Y., Tu, W., Duarte, F., Ratti, C., Guo, D., & Liu, Y. (2023). Comprehensive urban space representation with varying numbers of street-level images. Computers, Environment and Urban Systems, 106, 102043. https://doi.org/10.1016/j.compenvurbsys.2023.102043

素材来源:S3-Lab
材料整理:黄颖菁
内容排版:颜晓钦



城市数据派推出街景大数据课程
零基础带你掌握实用的街景大数据技能
12月18日开课,火热报名中!
如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派
点击上图,查看课程详情

课程大纲:

如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派


最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。

“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~


原文始发于微信公众号(城市数据派):如何融合数量不等的街景影像来表达城市空间单元?丨城市数据派

赞(0)