
数据精英春季特训营开车啦!
同时报名还可享更多优惠:
任选2套同报,再减200元!
任选3套同报,再减360元!
任选4套同报,再减520元!
任选5套同报,再减700元!
加我获取每套课程详细介绍
加我咨询和报名课程

本次分享的文献《Day-to-Night Street View Image Generation for 24-Hour Urban Scene Auditing using Generative AI》选自开源出版社 MDPI 旗下的期刊 Journal of Imaging(影像杂志),2024影响因子 3.2,属于CiteScore 2区期刊。文献为英文,感谢文献原作者团队Waishan Qiu 等授权翻译。
一个更智慧的城市应该是一个更安全的城市。⼤都市地区的夜间安全⻓期以来⼀直是全球关注的问题,特别是对于⼈口结构多样化和城市形态复杂的⼤城市(例如纽约、巴黎、孟买),其公⺠经常受到街道犯罪率较高的威胁。然⽽,由于缺乏夜间城市⾯貌数据,尽管基于街景图像(SVI)的城市研究与日俱增,但极少有涉及夜间安全感知的城市图像分析。考虑到夜间安全感知对于预防犯罪和促进城市活力具有重要意义,城市街道夜景数据的重要性,不言而喻。
本研究认为,通过⽣成式⼈工智能 (GenAI) 模型,可以从⼴泛存在的日景照片 (daytime SVI) 有效⽣成夜间街景 (nighttime SVI)。为了检验这⼀假设,本研究⾸先收集了4个城市景观中不同城市的成对昼夜 SVI,以构建全⾯的昼夜 SVI 数据集。然后,训练和验证具有亮度调整和修复微调的昼夜街景生成模型 (D2N),该 D2N 模型有效地将白天 SVI 转换为针对各种不同城市景观和城市形态量身定制的夜间SVI。
我们的研究结果表明:
(1)D2N转换的性能显著受到与城市密度相关的城市景观变化的影响;
(2)建筑物和天空视图的比例是变换精度的重要决定因素;
(3)在主流模型中(CycleGAN、Pix2Pix和StableDiffusion),CycleGAN保持了D2N场景转换的⼀致性,但需要丰富的数据。当成对 D2N SVI 可用时,Pix2Pix 可以达到相当高的准确性,但对数据质量很敏感。StableDiffusion 可产⽣高质量的图像,但训练成本昂贵。因此CycleGAN 在完成 D2N任务(平衡准确性、数据要求和成本)方⾯是最有效的。
这项研究通过构建⾸个 24 ⼩时 SVI 数据集(由各种城市形态的成对昼夜 SVI 组成),为城市场景研究做出贡献。D2N 生成器将为未来大量利用 SVI 来评估城市环境的城市研究提供基石。
图1. 白天到夜晚街景图像生成
图2. 文章原文请访问 https://doi.org/10.3390/jimaging10050112

城市公共空间对城市生态环境、居民身心健康、城市活力、公共生活、个人认同、城市安全等均有显著影响。正如 Lynch(1984 年)所强调的,城市的视觉外观对人的感知起着至关重要的作用。因此,城市环境设计在影响个人安全感方面具有特别重要的意义。安全认知传统上通过各种方法进行评估,如观察、活动记录、问卷调查、认知绘图和 GPS 跟踪。这些方法被广泛应用于环境行为领域,以量化行为特征。
有关城市环境质量的研究数量显著增加,城市环境质量影响着包括但不限于场所附件、城市热岛、生态系统服务、道路交通和房价等关键问题。在这些文献中,有相当一部分(280 多篇论文)利用街景图像(SVI)数据和人工智能(AI)进行城市尺度视觉审计。新近的研究表明,街景质量对人类行为有重大影响,包括跑步、步行、心理健康、休闲活动、工作和住房决策、犯罪和碳排放。然而,大多数(约 95%)基于 SVI 的研究完全依赖于白天的 SVI。由于缺乏夜间图像,对夜间城市空间质量的研究还不够充分。
(1)目前还没有城市尺度的高质量图像数据集可以提供一致(即相机设置)和成对的昼夜 SVI,专门用于在城市研究中根据白天的对应图像生成夜间视图。鉴于使用公开存在的日间 SVI 的普遍性,收集一致的成对日夜SVI 对于确保建议的日夜 SVI 生成的泛化能力至关重要。
(2)尽管昼夜转换在计算机视觉(CV)研究中十分普遍, 但关于哪些模型( 如StableDiffusion、CycleGAN、Pix2Pix)能更有效地完成城市场景的昼夜转换却鲜有参考。不同的 GenAI 模型在不同的城市形态和街道景观中如何表现出不同的性能在很大程度上还是未知数,值得进一步探索,为未来的研究提供重要参考。
(3)与传统的机器学习(ML)任务相比,如何一致地评估对城市场景研究有用的图像预测准确性不够清晰,特别是关于如何量化虚假和真实的夜间SVI之间的差异。我们认为,与R2、MSRE或其他常见的ML误差度量相比,人类感知更可靠,所以由人类进行验证很重要。
*注释
R2:代表决定系数(Coefficient of Determination),用于衡量模型对观测数据方差的解释程度。取值范围在0到1之间,越接近1表示模型对数据的拟合程度越好,即模型能够解释观测数据中的变异性程度越高。
MSRE:代表均方根误差(Mean Squared Relative Error),是指模型预测值与实际观测值之间的差异的平方的平均值。它衡量了模型的预测误差大小,数值越小表示模型的预测结果与实际观测值之间的偏差越小,预测的准确性越高。

为了填补夜景照片数据的空白,我们假设从白天SVI训练夜间SVI的有效与否,与城市形态特别是城市密度高度相关。通过收集不同密度的成对的昼夜街景数据集:
(1)我们填补了SVI 夜间图像的空缺。如何生成符合人眼感受的,能够用于城市环境评估的夜间图像,是一个新挑战,特别是在提高弱光条件下的图像质量以保留足够的信息用于人视角感知实验这一方⾯。我们使用 CycleGAN 完成了图像转换,虽然这是汽⻋行业常用的方法,但自动驾驶和安全辅助驾驶所需的夜景照片条件显而易见与城市感知实验不同。
(2)此外,我们在语义分割过程中提取了影响模型误差的关键街景要素,证实了城市密度对应的城市形态和风貌显著影响昼夜街景转换 (D2N)。
本研究旨在为政策制定者、规划者、设计者和居民提供科学依据,使他们能够根据白天SVI有效地预测夜间SVI,用于城市街道夜景质量评估。

D2N 框架(图 3)根据白天的对应图像生成夜间图像。首先,收集成对的昼夜 SVI。随后,用生成模型–CycleGAN、Pix2pix 和Stable Diffusion进行训练,然后进行验证以评估其性能。然后,在不包含成对夜间图像的情况下输入额外的日间 SVI,D2N 模型便可用于获取夜间图像,以分析环境感知。
图3. 概念框架
验证过程分两步。首先,采用包括 L1 距离、L2 距离和 SSIM 在内的常用指标,通过量化真实夜间图像与其转换后对应图像之间的差异来评估 D2N 模型的性能。其次,我们邀请了三位善于利用 SVI 进行环境感知评估的专业人士。他们对真实夜间图像和转换后的夜间图像进行了对比分析,评估了转换的质量。
图4. D2N模型的传递途径
*注释
L1距离(曼哈顿距离):L1距离是两个点在坐标系上绝对数值差的总和。在图像处理中,L1距离是两个图像像素值之间差的绝对值的总和。
L2距离(欧几里德距离):L2距离是两个点之间的直线距离,即欧几里德空间中的距离。在图像处理中,L2距离是两个图像像素值之间差的平方和的平方根。
结构相似性指数(SSIM):SSIM是用于测量两幅图像之间相似程度的指标,考虑了亮度、对比度和结构三个方面。SSIM值范围在[-1, 1]之间,值越接近1表示两幅图像越相似。
图 4 展示了 D2N 模型的三个关键步骤。起初,我们使用 CycleGAN 生成基本的夜间图像,并通过人工引导解决生成结果中观察到的天空随机亮斑问题。随后,分割在从与之相关的日间图像中分离天空成分方面发挥了关键作用。第三步,将天空掩膜与生成的夜间图像相结合,在人工指导下提高整体图像质量。最终,D2N 模型生成了夜间图像的最终输出。
从中国四个城市(即北京、上海、武汉和成都)中抽取成对的昼夜街景照片构建训练数据集,这些图像主要选自街道高宽比和建筑容积率相似的住宅区。然后将 D2N 模型应用于纽约市(NYC),以研究 D2N 模型的可行性和泛化能力。纽约市白天SVI 从谷歌地图上下载得到。
图 5a 展示了我们在中国北京收集的部分图像,包括 106 组训练输入图像。所收集的区域位于北京古代城市核心区之外,现代城市核心区之内。在图 5b 中,显示的视角代表我们收集图像时的视点。所有收集到的图像都基于人类视角,而非自主移动视角。视角还分为面向道路的视角和面向人行道的视角。图 5c 展示了我们收集到的相关图像,其中包括从类似视角拍摄的白天和夜间照片。这种方法可确保我们的训练模型达到最佳性能。我们收集的所有相应图像都用于 CycleGAN 的训练进度和验证进度。我们在 2023 年的夏季和秋季拍摄了相应的图像。在整个时间段内,图像中的绿色植物仍然值得注意。在我们从谷歌地图获取数据的后续阶段,有相当比例的 SVI 包含了各种不同的植被。
图5. SVI 采样过程 (a) 北京采样区域(地图为中文);(b) 一致性采样视角;(c) 配对昼夜SVI
由于纽约市的街道风格多种多样,因此在纽约市进行测试是最佳选择。我们特别选择了四个不同的区域,分别位于纽约的不同行政区:曼哈顿、布鲁克林、皇后区和布朗克斯(图6-a)。利用 QGIS 沿着公共街道的中心线以 150 米的间隔对 SVI 进行取样(图6-b)。道路网络的形状文件来自 OpenStreetMap。我们从四个指定区域总共取样 42,306 个点,随后随机选择 800 个点,通过谷歌街景应用程序接口(Google Street View API)下载。
图6. SVI采集 (a) 纽约四市区, (b) Bronx, (c) 视角控制
为了保持一致的视角,我们保留了相同的相机设置和图像分辨率。要确保所有 SVI 的视点一致,需要控制三个参数。“朝向”(视角方向)与街道中心线平行,”FOV”(水平视场)设定为 90 度,”俯仰”(摄像机的上下角度)保持为 0 度。此外,分辨率设定为 640 × 400 像素(图6-c)。
模型训练过程包括五个方面(图7)。首先,我们从北京、上海、成都和武汉四个城市收集了 638对昼夜 SVI。其次,我们利用 CycleGAN 训练模型,将白天转换为夜间。随后,我们获得了初步的输出图像。第三,我们采用语义分割法来分离天空部分,从而进一步自动识别天空区域的亮像素。这为后续自动识别整幅图像中的亮像素提供了便利。最后,我们在 Adobe Photoshop 中使用批量处理技术修正了屏蔽像素。
图7. 模型训练框架
D2N 模型用于夜间图像的转换,主要目的是满足环境感知审计对夜间 SVI 的大量需求。在感知审核过程中,实验人员通常会对整个图像进行主观观察。因此,仅依靠基于像素的测量方法已被证明不足以捕捉图像评估所需的主观评价。图 8 展示了调查界面。回答 “是 “表示两幅图像在感知上存在明显差异,而回答”否 “则表示两幅图像在感知上相似。
图8. 生成夜景与真实夜景的肉眼感知误差调查
*注释
普通最小二乘法(Ordinary Least Squares,简称OLS):是回归分析中最常用的参数估计方法之一。OLS 模型通过最小化误差项的平方和来拟合数据,从而估计线性回归模型中的参数。其基本目标是找到一组系数(参数),使得模型预测值与实际观测值之间的差异(即残差平方和)最小。

生成式对抗网络(GAN)是一种强大的深度学习模型,在图像生成、风格转换和图像转换等各种任务中都表现出卓越的功效。起初,我们选择了 GAN 的变体之一 pix2pix,期望随着数据集的扩大,最终生成的结果会有质的提升。与预期相反,随着数据集的扩大,预期的质的飞跃并没有实现(图9)。
出乎意料的是,在保持数据集大小不变的情况下,CycleGAN 的生成质量明显优于 pix2pix。在生成夜景时,CycleGAN 比 pix2pix 更好地保留了白天场景的基本元素(图10)。此外,随着数据集大小的增加,最终生成效果也在不断改善。

我们采用 D2N 模型将纽约四个区的白天场景转换为夜景:布朗克斯、布鲁克林、曼哈顿和皇后区。我们从相应的日间场景中共生成了 800 个夜景图像。在细化和选择效果较好的夜景图像过程中,可以明显看出皇后区的转换效果最好,而曼哈顿的生成效果相对较差(图11)。在研究这两个地区的异同时,我们提出了一个假设:白天图像的某些特征–例如街道上的建筑形式或天空比例–是否会影响最终的生成结果?

本文利用语义分割来量化输入照片中每个元素的比例,然后将这些比例用作普通最⼩二乘 (OLS) 模型中的因变量,L1 、L2 距离和 SSIM 作为因变量,表示⽣成的图像与真实夜景之间的差异。如表 1 所示,没有任何元素对 L1 距离有显着影响;栅栏和⼈行道对 L2 距离有影响;⽽建筑物和天空则导致 SSIM 的变化(P > | t |:⼩于 0.05 或 0.001,显示显着性)。这表明输入照片中天空的比例以及建筑⻛格和建筑高度等特征在影响输出照片的质量方⾯发挥着关键作用。图14进一步显示了天空和建筑物对输出照片的影响。我们引入了天空比例和建筑物比例作为自变量,以生成效果为因变量,绘制了折线图并附有相关趋势线。
表1. OLS回归结果和 p 值分析
在表 2 中,我们列出了最小、中等和最大天空率三种情况下的 L1 距离、L2 距离和 SSIM 值。
表2. 天空比例与生成效果之间的相关性
表3. 建筑比例与生成效果之间的相关性
原文始发于微信公众号(城市数据派):生成式AI魔法:日间街景秒变夜景?!助力24小时的街道环境评估丨城市数据派