激光网
当前位置: 首页 > 光粒网 > 软件 > 正文

谷歌研究人员推出DMD:一种用于增强零样本度量深度估计的突破性扩散模型

2023-12-25 10:34:13  来源:激光网原创    

尽管这对自动驾驶和移动机器人等应用很有帮助,但在一般情况下很难实现度量深度的单目估计。室内和室外数据集的RGB和深度分布截然不同,这带来了挑战。另一个问题是由于不知道相机的内在性而导致的照片中固有的比例模糊性。正如预期的那样,大多数现有的单目深度模型要么适用于室内或室外设置,要么仅在针对两者进行训练时估计尺度不变的深度。

当前度量深度模型通常使用使用固定相机内部函数收集的单个数据集进行训练,例如用于室内图像的 RGBD 相机或用于室外场景的 RGB+LIDAR。这些数据集通常仅限于室内或室外情况。这种模型牺牲了泛化性,以回避室内和室外深度分布变化带来的问题。不仅如此,它们不擅长泛化到非正态分布的数据,并且它们过度拟合了训练数据集的相机内部函数。

在模型中组合室内和室外数据的最常见方法是估计不变的深度,而不是指标深度。标准化深度分布可以消除由具有不同内在特性的相机引起的尺度模糊,并使室内和室外深度分布更接近。训练估计度量深度的室内外关节模型最近引起了很多关注,因为它是将这些不同方法结合在一起的一种方式。ZoeDepth 将两个特定于域的磁头连接到 MiDaS 以处理室内和室外域,使其能够将尺度不变的深度转换为公制深度。

利用几项重要进展,Google Research 和 Google Deepmind 的一项新研究调查了用于零样本度量深度估计的去噪扩散模型,从而实现了最先进的性能。具体来说,在整个训练过程中采用视场增强,以增强对各种相机内在特性的泛化性;在训练和推理过程中采用 FOV 调节来解决固有的尺度模糊性,从而带来额外的性能提升。研究人员建议在对数尺度中编码深度,以更好地利用模型的表示能力。通过在对数域中表示深度,可以更公平地分配室内和室外情况之间的模型容量,从而提高室内性能。

通过他们的研究,研究人员还发现,v参数化显著提高了神经网络去噪的推理速度。与新建议的度量深度模型 ZoeDepth 相比,最终模型 DMD 效果更好。DMD 是一种在通用场景上进行零样本度量深度估计的简单方法,既简单又成功。具体来说,当对相同的数据进行微调时,DMD 在所有八个非分布式数据集上产生的相对深度误差明显小于 ZoeDepth。向训练数据集添加更多数据会让事情变得更好。

DMD 在零样本度量深度上实现了 SOTA,与 ZoeDepth 相比,室内数据集的相对误差低 25%,室外数据集的相对误差低 33%。它是有效的,因为它使用 v 参数化进行扩散。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com