← Back to Homepage

2D模型的3D感知能力简述

作者:许博深
2024-12-18

本文为大家简单梳理当前2D视觉模型如何获取3D感知能力(3D Awareness)的研究进展,包括3D数据类型、3D感知能力的意义、以及通过不同模态(文本、深度、多视图)赋予2D模型3D理解能力的代表性工作。

1 引言

人类天然生活在三维世界中。从婴儿时期开始,我们就通过具身体验(embodied experience)学会了理解3D空间关系:从2D视觉输入中想象3D结构、感知空间深度、理解多视角的一致性。

We Live in a 3D World

人类通过具身经验获得三种3D能力:2D-to-3D想象、空间感知、多视角一致性

然而,当前大部分2D视觉模型(如图像分类、目标检测、视觉语言模型等)缺乏对3D世界的理解能力。一个典型的例子是:视觉错觉图片可以轻松欺骗人类的视觉系统,而这正是因为我们依赖2D图像中的先验知识来"脑补"3D信息。对于AI模型来说,如何让2D模型具备类似的3D感知能力,是一个核心的研究问题。

模仿人类的范式,核心问题是:如何为2D模型发展出3D感知能力(3D-Awareness)?

2 3D数据类型

在讨论3D感知之前,首先需要了解3D数据有哪些类型。根据获取方式和表达形式,3D数据主要分为以下几类:

原始数据获取方式:

3D数据表示形式:

3D数据类型

不同的3D数据表示形式:多视角图像、Mesh网格、NeRF体渲染等

3 3D感知能力能解决什么问题?

赋予2D模型3D感知能力有以下几方面的意义:

4 通过文本赋予3D感知:SpatialVLM

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities, CVPR 2024

SpatialVLM 是一篇探索如何通过文本数据让视觉语言模型(VLM)具备空间推理能力的代表性工作。其核心思路是:构造大规模的空间关系问答数据,通过指令微调让VLM理解3D空间关系。

SpatialVLM框架

SpatialVLM 的数据构造和训练流程

具体而言,SpatialVLM 的方法是:

SpatialVLM数据

基于模板生成的20亿空间关系VQA数据

实验结果表明,经过空间数据训练后的VLM在定性的空间关系判断(如"A在B的左边")和定量的空间关系推理(如"A和B之间的距离")上都取得了显著提升。这说明通过文本形式的3D空间数据可以有效赋予VLM一定的空间推理能力,但这种方法的精度和效率仍然有限。

5 通过深度信息赋予3D感知:Depth Anything

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data, CVPR 2024

Depth Anything 是深度估计领域的代表性工作,其核心贡献是利用大规模无标注数据来训练强大的单目深度估计模型。RGBD数据作为一种表面级的3D表示,是赋予模型3D感知能力最直接的方式之一。

Depth Anything方法

Depth Anything 的训练框架:结合有标注和无标注数据

Depth Anything 的训练策略如下:

通过这种"少量有标注 + 大量无标注"的训练范式,Depth Anything 在各种场景下都展现出了强大的深度估计能力。后续的 Depth Anything v2(NeurIPS 2024)和 Depth Pro(ICLR 2025 in submission)进一步提升了精度和速度,基本实现了高质量的实时单目深度估计。

Depth Pro Demo

Depth Pro:在不到一秒内实现清晰的单目度量深度估计

深度估计作为基础的3D感知能力,已经发展为成熟的基础模型,为下游任务(如3D重建、空间理解、机器人导航等)提供了重要的感知支撑。

6 通过多视角图像赋予3D感知

6.1 Probe3D:评估基础模型的3D感知能力

Probing the 3D Awareness of Visual Foundation Models, CVPR 2024

在讨论如何赋予模型3D感知之前,首先需要一个评估框架来衡量模型当前的3D理解能力。Probe3D 提出了一套系统的评估方法:

Probe3D评估框架

Probe3D 的评估方法:用解码器探测编码器的3D感知能力

评估结果揭示了一个关键发现:当前主流的ViT基础模型(如DINOv2)虽然具备强大的2D视觉理解能力,但其3D感知能力仍然有限。这引出了一个核心问题:如何为2D基础模型发展3D感知能力?

6.2 FiT3D:通过多视角图像微调DINOv2

Improving 2D Feature Representations by 3D-Aware Fine-Tuning, ECCV 2024

FiT3D 提出了一种高效且有效的方法,通过多视角图像对DINOv2进行微调,使其获得3D感知能力。

FiT3D方法

FiT3D:利用多视角一致性约束微调DINOv2

FiT3D 的核心设计:

FiT3D实验结果

FiT3D 在语义分割和深度估计任务上的泛化性能

实验结果表明,FiT3D 微调后的模型在室内语义分割和深度估计任务上都取得了显著提升,并且这种3D感知能力可以泛化到分布外(OOD)数据集上。更重要的是,这种微调方法对其他基础模型同样有效,说明多视角一致性是赋予2D模型3D感知能力的一种通用且高效的方式。

7 更多探索方向

除了上述三种代表性方法,3D感知能力的研究还延伸到多个方向:

8 总结

本文就2D模型的3D感知能力进行了简单的介绍,总结如下:

赋予3D感知的不同方式及其特点:

3D感知能力的潜在影响:

简单讨论:

参考文献

[1] Chen et al. SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities. CVPR 2024.

[2] Yang et al. Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. CVPR 2024.

[3] Yang et al. Depth Anything V2. NeurIPS 2024.

[4] Bochkovskii et al. Depth Pro: Sharp Monocular Metric Depth in Less Than a Second. ICLR 2025 submission.

[5] Garber et al. Probing the 3D Awareness of Visual Foundation Models (Probe3D). CVPR 2024.

[6] Zhai et al. Improving 2D Feature Representations by 3D-Aware Fine-Tuning (FiT3D). ECCV 2024.

[7] Yin et al. Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image. ICCV 2023.

[8] Yin et al. Metric3D v2: A Versatile Monocular Geometric Foundation Model. T-PAMI 2024.

[9] Cheng et al. SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model. NeurIPS 2024.

[10] Gao et al. CAT3D: Create Anything in 3D with Multi-View Diffusion Models. NeurIPS 2024 oral.

[11] Pokle et al. CONDENSE: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images. ECCV 2024 oral.

[12] Liu et al. Zero-1-to-3: Zero-shot One Image to 3D Object. ICCV 2023.

[13] Liu et al. One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization. NeurIPS 2023.

[14] Hong et al. LRM: Large Reconstruction Model for Single Image to 3D. ICLR 2024.

[15] Shen et al. F3RM: Feature Fields for Robotic Manipulation. CoRL 2023 Best Paper.



Based on a presentation given on 2024-12-18.

本文阅读量: