规划问道

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

春季特训营开车啦!
前沿主题课程带你开年进步:
数字技术、Stata、GIS与Python、
城市大数据、AI与机器学习、手机大数据
Netlogo地理建模、计算机视觉、交通流分析

任选2套课程,钜惠价再减200元!
任选3套课程,钜惠价再减360元!
任选4套课程,钜惠价再减520元!
任选5套课程,钜惠价再减650元!

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

加我获取11套课程详细介绍
加我咨询和报名课程
【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派




【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派



论文题目:3D Building Reconstruction from Single Street View Images using Deep Learning

发表单位:新加坡国立大学

发表期刊:International Journal of Applied Earth Observation and Geoinformation



本文作者:Scentea

研究方向:城市感知、三维重建、数字孪生



导语:

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

街景图像自出现以来,研究人员就不断探索其在城市科学、城市规划、地理信息等领域的应用可能,如绿识率、公共健康、城市风格等研究。今天推荐的论文探索了街景图像如何用于辅助建筑物三维重建,设计了单张街景图像重建、单张街景+俯视图重建、单张街景辅助模型细化三种情形,用到了近年计算机顶会上新出现的基于深度学习的DeepLabv3、DVR、Pixel2Mesh等模型,希望能对相关研究人员有一定的参考启发。


DeepLabv3(ECCV 2018),一个优异的语义分割网络;

DVR(CVPR 2020), 一种隐式的三维表示方法;

Pixel2Mesh(ECCV 2018),从单张RGB图像生成Mesh模型



1 背景

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

建筑物三维模型已经在城市规划、房地产、文物保护等领域发挥了不可替代的作用。近年来,随着硬件采集设备的快速发展,通过激光雷达或摄影测量等手段重建出的建筑物模型越来越真实化,但目前及接下来一段时间内,仍存在以下问题:地理范围有效,难以快速生成大范围的建筑物模型;模型多细节层次(Level of Detail, LoD)较低,多数模型仅能达到LoD1的水平。


与此同时,街景图像(Street View Imagery,SVI)自其出现起,研究人员就开始不断探索其在地学领域应用的诸多可能性,街景图像集中在城市区域采集,其中包含有丰富的建筑物信息。从单张或若干张图像中进行三维目标重建是计算机视觉中的一个重要研究方向,并且在深度学习的推动下涌现出了一系列新兴的方法。综上,该文探究了如何在街景图像的辅助下更好的进行建筑物三维模型的重建。


用街景图像辅助建筑物三维重建的过程中,不可避免地会遇到以下难点:

  • 街景图像间重叠度低,像素点间不具有密集的对应关系,如何充分利用单目信息。

  • 街景图像中目标多样,存在遮挡问题,包括有道路、车辆、行人等复杂情形,如何有效地提取出建筑物信息。


该文着重探究了以下三个问题,并针对每个问题设计了实验。

(1)单张街景图像是否可以直接重建出建筑物三维模型;

(2)单张街景图像+航拍图如何提高重建效果;

(3)单张街景图像如何改善LoD模型。


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派图 1 论文中探讨的三种情形



2 数据采集与处理

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

整个工作流程分为数据预处理、建模和评估三大部分,街景图像来源于在线网站Google Street View,另外还使用到了公开的赫尔辛基(芬兰首都)数据集,该数据集中提供有LoD1和LoD2级的建筑物三维模型,细节丰富,几何精度高。


数据集地址:

https://hri.fi/data/en_GB/dataset/helsingin-3d-kaupunkimalli


除了本文中用到的Mesh模型,该网站还提供了多种用于城市研究的数据:

  • 赫尔辛基的城市信息模型(CityGML格式),其中包括地形模型和建筑物,允许用户执行各种分析,如能源消耗、温室气体或交通对环境的影响等;

  • 赫尔辛基能源与气候图集,这些数据可用于提高能源效率、能源消耗最小化和可再生能源相关的研究;

  • 整个赫尔辛基的实景网格(obj格式),是一种基于航拍照片的视觉质量高且几何精确的模型。模型逼真,模型包括所有在拍摄时静止的物体,例如小型物体、树木和停放的汽车;

  • 赫尔辛基的全景图片和视频数据。


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派图 2 使用到的数据集


原始数据为带有五个摄像头的航空影像,航向重叠度80%,旁向重叠度60%,经过特征提取、特征匹配、区域网平差、表面重建后生成的Mesh模型。文献[2]提供了分类后的标签,分为了地面、植被、建筑物、水体、车辆和轮船六类,仅使用其中标签为建筑物的Mesh模型,并使用MeshLab工具切割为建筑物单体模型,并为建筑物添加底面,构成封闭的模型,最后使用开源库Blender生成模型不同视角下的图片。


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

图 3 数据处理流程



【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

图 4 建筑物单体模型及其三视图



3 研究方法及实验结果

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派


3.1 实验1 单张街景图像重建

实验1旨在探究用单张街景图像重建建筑物三维模型的效果。在该实验中,使用了Differentiable Volumetric Renderer (DVR)的模型框架,该模型可以学习到纹理和几何特征,从而可以帮助提高重建模型的精度。DVR网络于2020年计算机顶会CVPR上提出,因为可以连续地表示形状和纹理,隐式表征最近得到了普及,该文提出了一个用于隐含形状和纹理表示的可微分渲染策略,作者认为深度梯度可以用隐式微分的概念来分析得出,使得能够直接从RGB图像中学习隐性形状和纹理表征。


对于单张图像重建,该文对预训练好的DVR网络进行微调,DVR网络在含有13个种类的ShapeNet数据集上完成训练过程,然后在本文构建的数据集上进行微调。


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派


图 5 实验结果(一)


3.2 实验2 单张街景+俯视图重建

因为实验1中提到的DVR模型仅能输入单张图像,在实验2和实验3中采用了Pixel2Mesh/SphereInit/VoxMesh的网络主体架构,并进行了一定的调整,对三种网络进行了对比分析。


Pixel2Mesh模型发表在2018年计算机顶会ECCV上,其提出了一个端到端的深度学习架构,可以从单张彩色图像中生成三维的Mesh网状模型。受限于深度神经网络的性质,以前的方法通常用体积或点云来表示三维形状,而将它们转换为更容易使用的网状模型并不容易。与之前的方法不同,Pixel2Mesh在基于图的卷积神经网络中表示三维网格,并通过逐步变形椭圆体产生正确的几何形状,利用从输入图像中提取的感知特征,采用了从粗到细的策略来使整个变形过程稳定,并定义了各种与网格有关的损失来捕捉不同层次的属性,以保证视觉上的真实感和实际上准确的几何关系,生成具有更好细节的网格模型。


原本的Pixel2Mesh模型仅能输入一张图像,在实验2中需要同时输入侧视图和俯视图,因此对模型输入部分进行了一些调整,侧视图和俯视图分别经过ResNet50进行特征提取后,将特征图拼接在一起后替换掉原网络中的图片输入。


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派


图 6 Pixel2Mesh模型的变体1


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派


图 7 实验结果(二)


3.3 实验3 单张街景图像辅助模型细化

实验3的网络也是在Pixel2Mesh的基础上进行修改,用已有的LoD1级的Mesh模型替换掉原网络中的初始椭圆体Mesh,从而起到优化的作用,具体细节请参照原文。


【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

图 8 Pixel2Mesh模型的变体2

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

图 9 实验结果(三)



4 结论

【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派
街景图像好比城市某一时刻的快照,其中蕴含有丰富的信息,并已经不断地与地学领域的各种应用情景结合,该文探究了如何在街景图像的辅助下更好地进行建筑物三维模型的重建,使用了基于深度学习的DeepLabv3、DVR、Pixel2Mesh等模型,设计了单张街景图像重建、单张街景+俯视图重建、单张街景辅助模型细化三个实验。

参考文献:

[1] Pang, Hui En, and Filip Biljecki. “3D building reconstruction from single street view images using deep learning.” International Journal of Applied Earth Observation and Geoinformation 112 (2022): 102859.

[2] Gao, Weixiao, et al. “SUM: A benchmark dataset of Semantic Urban Meshes.” ISPRS Journal of Photogrammetry and Remote Sensing 179 (2021): 108-120.

[3] Chen, Liang-Chieh, et al. “Encoder-decoder with atrous separable convolution for semantic image segmentation.” Proceedings of the European conference on computer vision (ECCV). 2018.

[4] Niemeyer, Michael, et al. “Differentiable volumetric rendering: Learning implicit 3d representations without 3d supervision.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

[5] Wang, Nanyang, et al. “Pixel2mesh: Generating 3d mesh models from single rgb images.” Proceedings of the European conference on computer vision (ECCV). 2018.


最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~

原文始发于微信公众号(城市数据派):【佳文荐读】街景图像如何用于辅助建筑物三维重建(数据集分享)丨城市数据派

赞(0)