自动驾驶第一性之纯视觉静态重建

纯视觉的标注方案，主要是利用视觉加上一些GPS、IMU和轮速传感器的数据进行动态标注。当然面向量产场景的话，不一定非要是纯视觉，有一些量产的车辆里面，会有像固态雷达（AT128）这样的传感器。如果从量产的角度做数据闭环，把这些传感器都用上，可以有效地解决动态物体的标注问题。但是我们的方案里面，是没有固态雷达的。所以，我们就介绍这种最通用的量产标注方案。

纯视觉的标注方案的核心在于高精度的pose重建。我们采用Structure from Motion (SFM) 的pose重建方案，来保证重建精度。但是传统的SFM，尤其是增量式的SFM，效率非常慢，计算复杂度昂贵，计算复杂度为O(n^4)，n是图像的数量。这种重建的效率，对于大规模模型的数据标注，是没有办法接受的，我们对SFM的方案进行了一些改进。

改进后的clip重建主要分为三个模块：1）利用多传感器的数据，GNSS、IMU和轮速计，构建pose_graph优化，得到初始的pose，这个算法我们称为Wheel-Imu-GNSS-Odometry (WIGO)；2）图像进行特征提取和匹配，并直接利用初始化的pose进行三角化，得到初始的3D点；3）最后进行一次全局的BA（Bundle Adjustment）。我们的方案一方面避免了增量式SFM，另一方面不同的clip之间可以实现并行运算，从而大幅度的提升了pose重建的效率，比起现有的增量式的重建，可以实现10到20倍的效率提升。

在单次重建的过程中，我们的方案也做了一些优化。例如我们采用了Learning based features（Superpoint和Superglue），一个是特征点，一个是匹配方式，来替代传统的SIFT关键点。用学习NN-Features的优势就在于，一方面可以根据数据驱动的方式去设计规则，满足一些定制化的需求，提升在一些弱纹理以及暗光照的情况下的鲁棒性；另一方面可以提升关键点检测和匹配的效率。我们做了一些对比的实验，在夜晚场景下NN-features的成功率会比SFIT提升大概4倍，从20%提升至80%。

在得到单个Clip的重建结果之后，我们会进行多个clips的聚合。与现有的HDmap建图结构匹配的方案不同，为了保证聚合的精度，我们采用特征点级别的聚合，也就是通过特征点的匹配进行clip之间的聚合约束。这个操作类似于SLAM中的回环检测，首先采用GPS来确定一些候选的匹配帧；之后，利用特征点以及描述进行图像之间的匹配；最后，结合这些回环约束，构造全局的BA（Bundle Adjustment）并进行优化。目前我们这套方案的精度，RTE指标远超于现有的一些视觉SLAM或者建图方案。

实验：采用colmap cuda版，使用180张图，3848* 2168分辨率，手动设置内参，其余使用默认设置，sparse重建耗时约15min，整个dense重建耗时极长（1-2h）