3D目标检测算法，在车载激光雷达中，如何实现多分支特征融合

文|正经的烧杯

编辑|正经的烧杯

«——【·前言·】——»

2019年3月，芬兰地理空间研究所的专家们同样利用了“激光雷达＋无人机”开展了水域探测项目。在该项目中，他们探测了芬兰湿地面积以及人造沟渠的情况，根据此来对波罗的海的生态系统进行分析和提出修复建议。

基于点云的3D目标检测算法通常可以分为基于体素、PointNet++和图神经网络(graphneuralnetworks，GNN)三大类方法，其中基于PointNet++的方法感受野十分灵活，但计算里大。

与基于PointNet++的方法相似，基于GNN的方法同样被点云庞大的数量限制，需要通过采样降低点的个数，再进行点云建图和GNN的迭代，实现点云特征的提取。

不同于以上两种方法，基于体素的方法通常将空间划分为柱体(pillar)或体素(voxel)，实现把不规则的点云转化为3D卷积神经网络(3Dconvolutionalneuralnetworks，3D-CNN)所需要的规则数据，再使用3D-CNN学习特征。

在此过程中若将空间划分为更小的体素，其场景分辨车也会提高，采样过程中的信息丢失问题也随之改善，但后续的3D卷积计算里呈立方式增长。

对此SECOND算法3将稀疏卷积算子引入点云3D目标检测任务后，减少了空体素产生的无关计算量。

为此本文设计了一种基于多分支特征融合的3D目标检测算法，提出了名为PSANet(pyramidsplittingandaggregationnetwork，PSAnet)的新型3D目标检测器，将高分辨率、低语义信息的特征与低分辨率、高语义信息的特征进行交叉融合，学习BEV图的高级表示。

与现有的3D目标检测算法相比，本文提出的基于多分支特征融合的目标检测算法能够在车辆检测任务中显著提升3D检测精度和BEV图检测精度。

«——【·基本原理·】——»

算法流程：PSANet算法是基于多分支特征融合的3D目标检测算法，网络结构由以下4部分组成:点云数据预处理、3D骨干网络、2D骨干网络和检测头。

其中3D骨干网络包含了用于体素初始特征提取的体素特征编码模块和用于空间采样的3D稀疏卷积中间层。

2D骨干网络包含了BEV图生成模块和基于多分支特征融合的RPN(regionproposalnetwork)，检测头分别使用3个1根1的卷积层输出目标分类、边界框回归和朝向预测，整体网络结构如图1所示。

PSANet着重对用于BEV图特征提取的2D骨干网络进行了改进，并设计了特征金字塔层级（pyramidalfeaturehierarchy，PFH）与分裂聚合特征金字塔（pyramidsplittingandaggregation，PSA）相结合的多分支特征融合网络作为本算法的BEV图特征提取网络。

其主要包含两个分支：粗糙分支，使用PFH结构作为多尺度特征提取模块，能有效提取BEV图多尺度特征，获取包含原始空间位置信息和高级语义信息的特征图。

精细分支，使用PSA模块对粗糙分支提取的原始多尺度特征进行金字塔层级的拆分和重组聚合，实现对不同层级特征的纹理信息和语义信息的充分交叉融合。

«——【·3D骨干网络·】——»

使用均值体素编码模块计算每个体素内所有点的三维坐标的平均值，并将计算结果作为体素的初始特征，可以实现在降低计算成本的同时，将41根1600根1408的高分辨率场景统一编码为相同表示的逐体素特征。

编码为统一表示的体素初始特征后，通过如图2所示的3D稀疏卷积中间层实现从3D稀疏数据到2D稠密BEV图的转化。

其中橙色矩形表示稀疏卷积张里层，用于将逐体素的初始特征转化为稀疏的四维张里，以便后续使用稀疏卷积层加速模型的训练和推理。

绿色矩形表示3D子流型卷积层，用于在学习特征的同时保证数据的稀疏性;蓝色矩形表示3D稀疏卷积，能够实现对场景的下采样，同时避免计算多余的空体素;灰色长方体用于表示3D空间维度。

从图2中可以看出，处理好逐体素特征后，使用3D稀疏卷积层对整个场景进行特征学习和八倍下采样，并逐步将稀疏的点云场景压缩为128根2根200根176的特征Fvozel'其中128为通道数，2根200根176为空间维度的尺寸。

通过将Fvoxal的通道数和:轴空间维度合并，可使稀疏的四维张量被转化为稠密的二维BEV图。

分裂聚合特征金字塔模块：对于一个特征金字塔，位于金字塔底部的高分辨率特征保留了更丰富的纹理信息和更精确的空间位置信息，而随着自下而上堆叠金字塔，顶部特征包含了愈发丰富的语义信息，但其分辨率也越来越低。

通常情况下尺寸较大的特征图更有利于小目标的检测，目前许多检测器使用语义信息最丰富的顶层特征进行检测任务，但其分辨率极低对于小目标的检测具有一定的局限性，而使用金字塔底层的原始分辨率特征图进行检测，又会出现感受野有限、难以有效获取上下文信息的问题。

将高分辨率、低语义信息的特征图与低分辨率、高语义信息的特征图融合，能够尽可能地保留BEV图中的信息。

本文在金字塔模型和计算的基础上，将分裂得到的金字塔模型重组再进行融合，提出了如图3所示的PSA模块，并将其用于BEV图多尺度特征信息的深度融合，为后续检测任务提供更丰富、更全面的信息。

图3中蓝色线条表示对BEV图多尺度特征的提取，假设输入的BEV图为Fin，其原始尺寸为S，分别使用步长为1、2、2的2D卷积层对其进行下采样。

每次下采样后使用若干个3根3的2D卷积层进一步学习高级语义信息，以此获得尺寸为S的特征图F1，尺寸为S/2的特征图F2，以及尺寸为S/4的特征图F3，即相对于原始BEV图进行了1倍、2倍、4倍下采样。

最大池化和转置卷积可分别对特征图进行下采样和上采样，以此为基础可实现特征金字塔的分裂结构。

多尺度特征中的F1具有更高的图像分辨率、更丰富的纹理信息和更精确的空间位置信息，随着网络的加深，F2和F3的分辨率越来越低，但感受野逐步扩大，语义信息也愈加丰富。

由这三者分裂所得的3个特征金字塔FP1、FP2、FP3均保留了不同尺度上的语义信息和纹理信息，且保证了各自原始信息所占的比重。

按照特征图的尺寸，FP1、FP2和FP3可以进行联合拆分和重组聚合，由此可得到3个大小分别为S、S/2和S/4的堆叠特征图Fstack1、Fstack2和Fstack3。

输出的BEV图Fout由包含不同信息的多层级特征经过交叉融合得到，包含了低分辨率特征图的强语义信息，保留了高分辨率特征图的精确空间位置信息，保证了3D目标检测器在复杂场景下的稳健性。

«——【·基于多分支融合的2D骨干网络·】——»

原始特征图具有更精确的空间位置信息，为此本算法提出了基于粗糙分支和精细分支特征融合的2D骨干网络，将PSA模块作为特征融合的精细分支，将包含原始信息的PFH作为粗糙分支。

基于多分支特征融合的2D骨干网络能够保留精确空间的位置信息用于目标的定位，同时将交叉融合后得到的表征能力更强的特征作为信息补充，以此进行分支融合获得表征能力更强的BEV图特征。

如图4所示，粗糙分支对不同分辨率的原始特征进行转置卷积，以获得保留丰富语义信息和精确空间位置信息的特征图F21、F22和F23，3个尺寸相同的特征经过通道Concat拼接和通道数调整后，获得粗糙分支的输出Fc。

对于精细分支，金字塔聚合所得的特征F11、F2和F13的尺度均为S，对于粗糙分支，多尺度特征图经过转置卷积上采样得到的F21、F22和F23尺寸也同样为S，因此6个相同大小的特征具有众多融合策略。

由于粗糙分支的信息包含了精确的原始空间位置信息，在目标定位和边界框回归的过程中发挥着重要的作用，本算法将粗糙分支先进行分支内融合，再将融合所得特征F。

与精细分支进行分支间融合，由此可根据分支间和分支内的融合先后顺序，将分支内先融合的策略称为后融合，而将直接使用中间特征进行分支间融合的方式称为前融合。

本算法设计了后期Sum融合作为最终的融合策略，基于多分支特征融合的2D骨干网络能够提取表征能力更强的BEV图特征，将获取的特征FBEV分别送入3个1根1的2D卷积层实现对物体类别、边界框位置和物体朝向的预测。

«——【·实验设计与结果分析·】——»

将基于多分支特征融合的点云3D目标检测算法在具有挑战性的KITTI数据集上进行训练和评估，同时遵循MV3D（multi-view3D）提出的数据集划分策略。

从已标注的7481个场景中划分出3712个样本作为训练集，其余3769个样本作为验证集，评估算法的性能指标，本文的实验训练在配置信息如表1所示的平台上进行。

性能指标对比：从表2可以看出，本文提出的PSANet算法在不同难度的车辆检测任务上均取得了具有竞争力的性能，甚至超过了两阶段的算法。

模型在单张GTX1080Ti显卡上进行前向推理时，其检测速度可达24frames/s，较好地实现了对检测器速度与精度的均衡。

实验结果分析：分别从算法检测结果的可视化，以及不同算法检测结果对比两个方面对本文算法进行结果分析。

图5展示了检测结果与真实边界框的对比，每个场景包含3个部分：上半部分为场景对应的彩色图像，左下角为检测结果在真实点云空间中的可视化，右下角为BEV图检测的结果。

其中红色边界框用于表示算法的检测结果，绿色边界框表示数据集标注的真实边界框，二者重合程度越高说明算法性能越好。

从图5中可以看出本算法成功检测出了目标并且可从上方的彩色图像中看出本算法无误检，SECOND和PointPillars这两种算法均为最先进的基于体素的单阶段点云3D目标检测算法。

图6展示了本算法与SECOND和Pointpillars的检测结果对比，可以看出，部分车辆被严重遮挡，3种算法都成功地检测到场景中的车辆，本算法更好地排除了灌木丛和围栏的干扰。

«——【·结语·】——»

基于多分支特征融合的3D目标检测算法在实践中取得了较好的表现效果，在复杂的对比场景下，于高速公路右侧的灌木丛和标识牌，Pointpillars有两处明显的误检。

SECOND也同样将左侧护栏错误地识别为车辆，然而本文算法利用特征金字塔底部高分辨率的纹理信息表现出优秀的性能，很好地避免了背景点的干扰。

上述的检测结果可视化表明，本文提出的检测器对于复杂环境下的检测任务具有更强的鲁棒性，可以为日后的科研与教学提供良好实验基础支撑。

幸福双城资讯网

3D目标检测算法，在车载激光雷达中，如何实现多分支特征融合

一本正经的烧杯