Yolov3

YOLOv3 是YOLO系列目前最新的网络结构，YOLO系列可以说是打破了以FasterRCNN为例的two-stage框架的一统天下的局面。已经有很多博文介绍了，github上也有很多开源代码，这里我推荐一个和。

但对于一个神经网络来说，另一个重要的部分是Loss的构建。大多数文章关注于网络框架的搭建，忽略了Loss构建，使得读完之后虽然知道了网络的输出，但不知道这些输出到底对应着什么，从而很难理解网络具体的含义。本文就详细阐述YOLOV3的Loss的构建

网络框架

要讲Loss，就不得不讲网络的输出，这里我们略讲一下。具体可以参考 yolo_framework

图1 YOLOv3 ssp 网络框架

可以看到，YOLOv3的输出是有3个：y1，y2，y3。分别对应不同的分辨率的feature map。

Loss构建

首先理解一下网络的输出。以y1为例，y1的输出为13*13*255，表示整张图被分为13*13个格子，每个格子预测3个框，每个框的预测信息包括：80个类别+1个框的置信度+2个框的位置偏差+2个框的size偏差。输出可以理解为是13*13*(3*(80+1+2+2))。具体可见

接下来就归入正题，来看Loss构建过程。

loss2

首先先看对真值的操作过程。因为真值是框的位置和大小，而要参与计算Loss的真值是框的类别cls，框的真实位置偏移值txy和尺寸偏移值twh。给出target，每一行是一个box的信息：属于batch中的第几张图片（image），类别，位置的尺寸。然后针对不同分辨率的feature map进行处理，以分辨率最小feature map为例：

1、选取box（n个）长宽的真值wh_gt

2、通过与anchor比较，计算IoU，抛去IoU小于一定阈值的框（说明这些框不适用该尺寸的feature map进行预测），留下IoU大于阈值的框（m个）。

以下操作均对留下的框（m个）进行操作（虚线代表的“选取”过程，选取留下的框）

3、提取框位置的真值，并与取整之后的值比较，这个取整后的值对应着feature map中的位置，计算位置偏差的真值（txy）。

4、提取框尺寸的真值，并与对应的anchor的尺寸比较，计算尺寸偏差的真值（twh）

5、记录框的类别真值（cls）

6、记录留下的框对应anchor的id和对应图片的id，位置取整后的值，这个取整后的值代表着是用13*13中的哪个格子进行预测。（indicies）

loss1

得到要回归的真值之后，与神经网络的输出构建Loss。ouput包含着网络的输出，对应上图1中的y1，y2和y3。图中output[0]对应y1,是经过reshape过后的。output[1]和output[2]做同样处理。下面以output[0]为例，实线箭头代表经过某种操作，过程如下：

1、按照ouput的大小构建tconf，表示框的真实置信度

2、按照真值的indices将对应的某张图片中的某张格子的某个anchor的置信度置1。因为框要由这个图片的这个格子的这个anchor预测，所以这个图片中的这个格子的这个预测的置信度的真值应该为1。

3、将ouput中的值与真值比较构建位置的loss（lxy），尺寸的loss（lwh），类别的loss（lcls），置信度的loss（lconf）。

4、然后加权得到总的Loss

如果有没有写清楚的地方，欢迎留言。我会进行修改！

转载地址：https://blog.csdn.net/wqwqqwqw1231/article/details/90667046 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：【论文阅读】【综述】3D Object Detection 3D目标检测综述

下一篇：【论文阅读】【三维目标检测】在Range view上做3D目标检测

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

目录

Yolov3

网络框架

Loss构建

发表评论

最新留言

关于作者

推荐文章