【论文阅读】【二维目标检测】YOLOF:You Only Look One-level Feature
发布日期:2021-09-16 07:31:56 浏览次数:2 分类:技术文章

本文共 1871 字,大约阅读时间需要 6 分钟。

文章目录

2021CVPR,旷视团队

文章链接:https://arxiv.org/abs/2103.09460

代码链接:https://github.com/megvii-model/YOLOF

这篇文章有点意思,我认为这篇文章对3D目标检测问题有很大启发。本文先介绍文章,再介绍启发。

YOLOF

FPN的作用到底是什么?

FPN已经成为backbone的必备组件,无论是在anchor based还是在anchor free上面。而且对于FPN的认识,以往都是人为FPN能够将全局特征向下传递,并且融合多个尺寸的特征,使得能够提升特征图分辨率的同时,使得特征图的特征仍然拥有高级的语义信息。这种观点引发了PAN结构的neck,或者是EfficientDet中的BiFPN。

但本文提出,FPN的作用更大程度是在于对物体的分而治之的策略,就是不同大小的物体使用不同分辨率的特征图来预测。本文先做了一个实验,如下图:

在这里插入图片描述
上左图为FPN,左列为使用融合不同scale的特征图,上行为使用分治策略,右下为既不融合不同scale也不分治。

对比上图,可以得到两个结果:1)C5具备的特征既具有全局特征,也具有局部特征,因为右上图仅用C5特征图的检测,只比使用融合scale的低0.9;2)FPN的有效果的原因更多在于分治策略,而不是融合多scale特征图。

作者还发现,RetinaNet中,Decoder也就是检测头网络要在多个特征图中进行密集预测,需要花大量时间,如下图:

在这里插入图片描述
那作者就提出,既然C5特征已经足够充分了,可不可以只用一个特征图就把检测问题搞定,从而减少计算量?那么baseline就是右下图,既没有融合多个scale,也没有分治策略。

YOLOF

既然取消了分治策略,只用一个特征图来预测,就需要使得C5特征图的学习重点需要遍布所有物体,也就是感受野需要覆盖由小到大各种各种物体大小。因此,作者提出在C5后面接上空洞卷积来提升感受野,但又不能单纯的扩大感受野,要照顾小的物体,所以将空洞卷积设计成了残差连接的方式,如下图:

在这里插入图片描述
但我这里有个问题,既然要让一个特征图既能关注小物体,也能关注大物体,为什么不将空洞卷积设计成concat的模式,而是Res的模式呢?

作者认为分治策略可以使用更高分辨率的特征图来预测小物体,那在同一个特征图中,大物体和小物体所对应的正例anchor数量就差很多。比如大anchor左右移动几个像素,对于大物体来说,可能不怎么影响IoU,但对于小物体和小anchor,左右移动几个像素,可能anchor就从正例变成了负例了。所以作者提出了Uniform Matching的方式:1)对于每个gt,寻找k个最近邻的anchor作为正例,这样就保证了各种大小的gt对应的正例数量一样,然后将IoU>0.7的负例忽略,IoU<0.15的正例忽略。

但我认为这样在k小的时候可能还有用,当k大了,对于小物体而言,本身就没有那么IoU>0.15的anchor,肯定小样本的正例还会少一些。

Experiment

效果要比RetinaNet好,就是说用了单一特征图做检测,效果还不错

在这里插入图片描述

Ablation Study

两个创新的作用

在这里插入图片描述

从上图可以发现,空洞卷积的加入对于各种大小的物体均有提升,但主要还是在大物体的提升上。Uniform Matching则是对于小物体的提升空间大。

其他

分别验证了如下:

  • 扩张卷积的加入,能够提升各个大小的检测效果,而且加的越多,效果越好,但加多了也就饱和了
  • 扩张卷积的扩张尺寸,加的差不多大就好,加的大了,就可能对小物体不好了
  • 在扩张卷积中加入shorcut,构建res的形式很重要
  • uniform matching中k的选取越多越好,但存在饱和。但实验也就做到了5,还不如ATSS中给的9多,所以我认为这个结论并不solid,k大了如何保证uniform?
  • 相比于ATSS,uniform matching在这篇文章中效果更好

3D目标检测的启发

3D目标检测大多是基于俯视图的,而且是单阶段的,而且是只是用一个scale的特征图的,而且物体也有car和pedestrian不同分别的。例如PVRCNN,Part-A^2等网络,都是栅格化0.05m0.05m或者0.1m0.1m,然后降采样8倍,也就是说,pedestrian占据在特征图中的像素也就是1-4,其实也很小了,而car则有3m长,2m宽,差别还是挺大的。

所以本文中的空洞卷积以及uniform matching正好用上。

转载地址:https://blog.csdn.net/wqwqqwqw1231/article/details/118094868 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:【论文阅读】【三维目标检测】AFDet: Anchor Free One Stage 3D Object Detection
下一篇:【论文阅读】【二维目标检测】ATSS

发表评论

最新留言

能坚持,总会有不一样的收获!
[***.219.124.196]2024年04月02日 15时54分23秒