点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

c85650450b5bf65a900de89e86e56d1f.jpeg

0. 这篇文章干了啥?

自监督学习能够高效利用大量未标记数据,对于3D点云数据具有重要意义。由于数据的固有稀疏性和传感器放置以及其他场景元素的遮挡而导致的点分布的可变性,直接将2D方法扩展到3D非常困难。

因此,这篇文章提出了一种针对有效3D表示学习的新型预训练范式,不仅避免了复杂的正/负样本分配,而且隐含地提供连续的监督信号来学习3D形状结构。

下面一起来阅读一下这项工作~

1. 论文信息

标题:UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

作者:Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang

机构:上海AI Lab、浙江大学、香港大学、中国科学技术大学、悉尼大学、之江实验室

原文链接:https://arxiv.org/abs/2310.08370

代码链接:https://github.com/Nightmare-n/UniPAD

2. 摘要

在自动驾驶的背景下,有效特征学习的重要性被广泛认可。虽然传统的3D自监督预训练方法已经取得了广泛成功,但大多数方法都遵循了最初设计用于2D图像的思想。在本文中,我们提出了UniPAD,一种新颖的自监督学习范式,应用了3D体积可微渲染。UniPAD隐含地编码3D空间,有助于重建连续的3D形状结构和它们的2D投影的复杂外观特征。我们方法的灵活性使其能够无缝集成到2D和3D框架中,从而更全面地理解场景。我们通过在各种下游3D任务上进行大量实验,证明了UniPAD的可行性和有效性。我们的方法显著提高了基于激光雷达、摄像头和激光雷达-摄像头的基线分别达到了9.1、7.7和6.9的NDS。值得注意的是,我们的预训练管道在nuScenes验证集上实现了73.2的NDS,对3D物体检测和3D语义分割的mIoU为79.4,与之前的方法相比取得了最先进的结果。

3. 效果展示

预训练对3D检测和分割的影响, 其中C,L和M分别表示相机,LiDAR和融合模态。3D目标检测的NDS提高了9.1,3D语义分割的mIoU提高了6.1,超过了基于对比和MAE的方法的性能。在nuScenes数据集上实现了79.4的分割mIoU的最新SOTA。此外,该预训练框架可以无缝应用于2D图像骨干,基于多视图摄像机的3D检测器的NDS提高了7.7。

bda03b782cc93b53b6ea527e31f82bbf.png

4. 主要贡献

(1)第一个在自动驾驶背景下探索新型3D可微分渲染方法用于自监督学习的研究。

(2)该方法的灵活性使其易于扩展到预训练2D骨干。通过一种新颖的采样策略,在效率和效果上都表现出优势。

(3)在nuScenes数据集上进行了全面的实验,在这些实验中,该方法超越了六种预训练策略的性能。涉及七种骨干和两种感知任务的实验为方法的有效性提供了令人信服的证据。

5. 基本原理

这个方法将掩蔽的点云作为输入,并旨在通过3D可微分神经渲染在投影的2D深度图像上重建缺失的几何形状。具体而言,当提供掩蔽的LiDAR点云时,使用3D编码器提取分层特征。然后,将3D特征通过体素化转换为体素空间,进一步应用可微分的体积渲染方法来重建完整的几何表示。多视图图像特征通过lift-split-shoot(LSS)构建3D体积。为了在训练阶段保持效率,提出了一种专门设计用于自动驾驶应用的内存高效的射线采样策略,它可以大大降低训练成本和内存消耗。与传统方法相比,新的采样策略显著提高了准确性。

总体架构。 以LiDAR点云或多视角图像作为输入。首先提出掩码生成器对输入进行部分掩码。接下来,使用特定模态的编码器来提取稀疏的可视特征,然后将其转换为以屏蔽区域为零的稠密特征。模式特异性特征随后被转换到体素空间,接着是一个投影层以增强体素特征。最后,基于体的神经渲染对可见区域和遮挡区域都产生RGB或深度预测。

431c858acebbda0e3bc856cffa03134b.png

6. 实验结果

3D目标检测效果。 在采用UVTR作为点模式( UVTR-L ),相机模式( UVTR-C ),相机扫描模式( UVTR-CS )和融合模式( UVTR-M )的基线。得益于有效的预训练,UniPAD将基线UVTR - L、UVTR - C和UVTR - M分别提高了2.9、2.4和3.0 NDS。当使用多帧相机作为输入时,UniPAD - CS比UVTR - CS带来了1.4 NDS和3.6 mAP的增益。在基于单目的基线FCOS3D上也实现了1.7 NDS和2.1 mAP的提升。在没有任何测试时间增长或模型集成的情况下,单模态和多模态方法UniPAD - L,UniPAD - C和UniPAD -- M的NDS分别为70.6,47.4和73.2,超过了现有的最先进的方法。

874a00b07ea7177a816543876f742b22.png

3D语义分割。 在nuScenes Lidar - Seg数据集上将UniPAD与先前的点云语义分割方法进行了比较。采用Pointcept实现的SpUNet作为基线。得益于有效的预训练,Uni PAD将基线提高了6.1 mIoU,在验证集上达到了最先进的性能。同时,UniPAD在测试集上取得了令人印象深刻的mIoU为81.1,这与现有的最先进的方法相当。

7c3a955db19c6fc1e4df382fb6dfb2da.png

基于图像的预训练。 将UniPAD与其他几种基于图像的预训练方法进行了比较:1 )深度估计器:通过深度估计将3D先验注入到2D学习的特征中;2 )检测器:使用MaskRCNN在nuImages数据集上预训练的权值初始化图像编码器;3 ) 3D检测器:使用广泛使用的单目3D检测器的权重进行模型初始化,该模型依赖于3D标签进行监督。与之前的无监督或有监督的预训练方法相比,UniPAD展示了更强的知识迁移能力,展示了基于渲染的前文本任务的有效性。

基于点的预训练。 对于点模态,也与最近提出的自监督方法进行了比较:1 )基于占位的方法:在框架中实现了ALSO来训练点编码器;2 )基于MAE的方法:采用领先执行的方法,利用倒角距离重建被遮挡的点云。3 ) .基于对比:对比采用像素对点的对比学习方法,将2D知识集成到3D点中。在这些方法中,UniPAD取得了最好的效果 NDS性能。而UniPAD相对于基于对比的方法mAP略低,但避免了对比学习中复杂的正负样本分配的需要。

不同的视角转换。 研究了将2D特征转换到3D空间的不同视图转换策略,包括BEVDet,BEVDepth和BEVformer。持续改进范围为5.2 ~ 6.3 NDS可以通过不同的变换技术观察到,这证明了所提出的方法具有很强的泛化能力。

不同模态。 与以往大多数预训练方法不同,该框架可以无缝地应用于各种模态。为了验证方法的有效性,将UVTR作为基线,它包含了点、相机和融合模式的检测器。显示了UniPAD对不同模态的影响,Uni PAD将UVTR - L、UVTR - C和UVTR - M分别提高了9.1、7.7和6.9 NDS。

89a4a05e18cff105e070af7fbb43ed49.png

7. 总结 & 未来工作

这篇文章介绍了一种创新的自监督学习方法,命名为UniPAD,它在一系列3D下游任务中表现出优异的性能。UniPAD以其巧妙地将NeRF适配为统一的渲染解码器而脱颖而出,能够无缝集成到2D和3D框架中。此外,作者提出了深度感知的采样策略,不仅降低了计算需求,而且提高了整体性能。UniPAD所固有的适应性为未来在自动驾驶领域利用成对图像点数据进行跨模态交互的研究打开了大门。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

7330de6a288acbec7601600da91dc252.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

5392389f0261cbbdb6c71557aa85ec29.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

93c01eb29d76bfee5c70b33670911979.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
ab58d1a4f7f9cabda7ab89c8023c29ad.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
1983a1f658c5960bc1f3b7c7a633ca5e.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
5893e22f9b492675be27195131ffdd27.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
d37b1dbe1d0187b6505eb87f03d7f386.png硬件+源码工坊智能ROS小车
20b6e61fa8dcb64f70669b80f0b7acc2.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
—   —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

Logo

更多推荐