清华最新！RoadBEV：BEV下的道路表面重建如何实现？

原标题：roadbev: road surface reconstruction in bird’s eye view

论文链接：https://arxiv.org/pdf/2404.06605.pdf

代码链接：https://github.com/ztsrxh/RoadBEV

作者单位：清华大学加州大学伯克利分校

Table of Contents

论文思路：

道路表面状况，尤其是几何轮廓，极大地影响自动驾驶车辆辆行驶的驾驶能力。基于视觉的在线道路重建有望提前捕获道路信息。现有的解决方案如单目深度估计和立体视觉估计都有其局限性。最近的鸟瞰视角（BEV）感知技术为更可靠和精确的重建提供了巨大动力。本文统一提出了两种有效的BEV道路高程重建模型，分别命名为RoadBEV-mono和RoadBEV-stereo，它们区别于使用单目和双目图像进行道路高程估计。前者直接从单幅图像中估计道路高程，而后者利用左右体视图估计道路高程。深入的分析揭示了它们与透视图的一致性和差异。在实际世界数据集上的实验证明了模型的有效性和优越性。RoadBEV-mono和RoadBEV-stereo的高程误差分别为1.83米和0.56米。基于单目图像的BEV估计性能提高了50％。本文的模型有望在基于视觉的自动驾驶技术中提供宝贵的参考。

主要贡献：

本文首次从理论和实验两个方面展示了鸟瞰视角下道路表面重建的必要性和优越性。

本文介绍了两种模型，分别命名为RoadBEV-mono和RoadBEV-stereo。对于单目和立体基础方案，本文详细解释了它们的机制。

本文全面测试和分析了所提出模型的性能，为未来的研究提供了宝贵的见解和展望。

网络设计：

近年来，无人地面车辆（UGVs）的快速发展对车载感知系统提出了更高的要求。实时理解驾驶环境和条件对于准确的运动规划和控制至关重要[1]-[3]。对于车辆来说，道路是与物理世界接触的唯一媒介。道路表面状况决定了许多车辆特性和驾驶性能[4]。如图1（a）所示，道路的不平整性，如颠簸和坑洼，会加剧乘坐车辆的乘坐体验，这是直观可感知的。实时道路表面状况感知，特别是几何高程，极大地助于提升乘坐舒适度[5]，[6]。

与无人地面车辆（UGVs）中的其他感知任务如分割和检测相比，道路表面重建(road surface reconstruction)（RSR）是一种新兴技术，最近越来越受到关注。与现有的感知流程类似，RSR通常利用车载激光雷达（LiDAR）和摄像头传感器来保留道路表面信息。激光雷达直接扫描道路轮廓并派生出点云[7]，[8]。车辆轨迹上的道路高程可以直接提取，无需复杂算法。然而，激光雷达传感器成本较高，限制了它们在经济型量产车辆上的应用。与车辆和行人等体积较大的交通物体不同，道路的不平整性通常幅度较小，因此点云的准确性至关重要。实时道路扫描上的运动补偿和过滤是必需的，这进一步要求在厘米级别的高精度定位。

基于图像的道路表面重建（RSR），作为一个三维视觉任务，在精度和分辨率方面比激光雷达（LiDAR）更有前景。它还保留了道路表面纹理，使得道路感知更加全面。基于视觉的道路高程重建实际上是一个深度估计问题。对于单目相机，可以基于单张图片实施单目深度估计，或者基于序列实施多视角立体（MVS）来直接估计深度[9]。对于双目相机，双目匹配回归视差图，这可以转换为深度[10]，[11]。给定相机参数，就可以恢复相机坐标系中的道路点云。通过初步的后处理流程，最终获得道路结构和高程信息。在真值（GT）标签的指导下，可以实现高精度和可靠的RSR。

然而，图像视角下的道路表面重建（RSR）存在固有的缺点。对于特定像素的深度估计实际上是沿着垂直于图像平面方向寻找最优箱体(optimal bins)（如图1（b）中的橙色点所示）。深度方向与道路表面存在一定的角度偏差。道路轮廓特征的变化和趋势与搜索方向上的变化和趋势不一致。在深度视图中关于道路高程变化的信息线索是稀疏的。此外，每个像素的深度搜索范围是相同的，导致模型捕捉到的是全局几何层次结构而不是局部表面结构。由于全局但粗糙的深度搜索，精细的道路高程信息被破坏。由于本文关注的是垂直方向上的高程，因此在深度方向上所做的努力被浪费了。在透视视图中，远距离的纹理细节丢失，这进一步为有效的深度回归带来了挑战，除非进一步引入先验约束[12]。

从俯视图（即鸟瞰图，BEV）估计道路高程是一个自然的想法，因为高程本质上描述了垂直方向的振动。鸟瞰图是一种有效的范式，用于以统一坐标表示多模态和多视图数据[13]，[14]。最近在三维目标检测和分割任务上取得的 SOTA 性能是通过基于鸟瞰图的方法实现的[15]，这与透视视图不同，后者通过在视图转换的图像特征上引入估计头部来进行。图1展示了本文的动机。与在图像视图中关注全局结构不同，鸟瞰图中的重建直接在垂直方向上的一个特定小范围内识别道路特征。在鸟瞰图中投影的道路特征密集地反映了结构和轮廓变化，有助于进行有效和精细化的搜索。透视效应的影响也被抑制，因为道路在垂直于观察角度的平面上被统一表示。基于鸟瞰图特征的道路重建有望实现更高的性能。

本文重建了BEV下的道路表面，以解决上述识别出的问题。特别地，本文关注道路几何，即高程(elevation)。为了利用单目和双目图像，并展示鸟瞰图感知的广泛可行性，本文提出了两个子模型，分别命名为RoadBEV-mono和RoadBEV-stereo。遵循鸟瞰图的范例，本文定义了覆盖潜在道路起伏的感兴趣体素。这些体素通过3D-2D投影查询像素特征。对于RoadBEV-mono，本文在重塑的体素特征上引入了高程估计头。RoadBEV-stereo的结构与图像视图中的双目匹配保持一致。基于左右体素特征，在鸟瞰图中构建了一个4D代价体积，该体积通过3D卷积进行聚合。高程回归被视为对预定义箱体的分类，以实现更高效的模型学习。本文在本文作者之前发布的真实世界数据集上验证了这些模型，显示出它们比传统的单目深度估计和双目匹配方法有着巨大的优势。

图1. 本文的动机。（a）无论是单目还是双目配置，本文在鸟瞰图（BEV）中的重建方法都优于图像视图中的方法。（b）在图像视图中进行深度估计时，搜索方向与道路高程方向存在偏差。在深度视图中，道路轮廓特征是稀疏的。坑洼不容易被识别。（c）在鸟瞰图中，能够精确捕捉到轮廓振动，例如坑洼、路边台阶乃至车辙。垂直方向上的道路高程特征更加密集，也更容易识别。

图2. 坐标示意及真值（GT）高程标签的生成。（a）坐标（b）图像视图中的感兴趣区域（ROI）（c）鸟瞰图中的感兴趣区域（ROI）（d）在网格中生成真值（GT）标签

图3. 道路图像及真值（GT）高程图的示例。

图4. 图像视图中感兴趣的特征体素。位于相同水平位置的堆叠体素的中心被投影到红色线段上的像素点。

图5. RoadBEV-mono的架构。本文利用3D到2D的投影来查询像素特征。高程估计头部使用2D卷积在重塑后的鸟瞰图（BEV）特征上提取特征。

图6. RoadBEV-mono的机制。体素以侧视图展示。

图7. RoadBEV-stereo的架构。定义在左相机坐标系下的体素查询左右特征图的像素特征。本文通过左右体素特征之间的相减，在鸟瞰图（BEV）中构建差异体积。然后，3D卷积对鸟瞰图中的4D体积进行聚合。

图8. RoadBEV-stereo的机制。

实验结果：

图9. (a) RoadBEV-mono和 (b) RoadBEV-stereo的训练损失。

图10. 在单目和双目基础上，与SOTA模型的距离方向上的高程误差比较。

图11. 由RoadBEV-mono重建的道路表面可视化。

图12. 由RoadBEV-stereo重建的道路表面可视化。

总结：

本文首次在鸟瞰图中重建了道路表面的高程。本文分别提出并分析了基于单目和双目图像的两种模型，分别命名为RoadBEV-mono和RoadBEV-stereo。本文发现，BEV中的单目估计和双目匹配与透视视图中的机制相同，通过缩小搜索范围和直接在高程方向挖掘特征而得到改进。在真实世界数据集上的全面实验验证了所提出的BEV体积、估计头和参数设置的可行性和优越性。对于单目相机，在BEV中的重建性能比透视视图提高了50%。同时，在BEV中，使用双目相机的性能是单目的三倍。本文提供了关于模型的深入分析和指导。本文的开创性探索也为与BEV感知、3D重建和3D检测相关的进一步研究和应用提供了宝贵的参考。

以上就是清华最新！RoadBEV：BEV下的道路表面重建如何实现？的详细内容，更多请关注叮当号网其它相关文章！

文章来自互联网，只做分享使用。发布者：代号邱小姐，转转请注明出处：https://www.dingdanghao.com/article/359111.html