YOLO阅读笔记

来源：互联网发布：linux 发送tcp报文编辑：程序博客网时间：2024/06/07 19:38

YOLO的有点（摘自YOLO原文）：

1、YOLO检测框架速度非常快，Tian X可以达到45帧/s，

2、比起其他实时检测框架具有更高的精度

3、背景检测错误低

4、对艺术图像依然有很好的检测效果

缺点：

检测精度比低于当前最好的检测框架

统一检测：

1、将图像分成S*S的网格，物体中心落在某一个网格中，则该网格负责预测该物体

2、每一个网格对预测B个边框和置信度，若网格中没有目标则置信度输出为0

3、每个边框包括5个预测值：x,y,w,h和confidence. 其中x,y表示相对于网格的边框中心，w,h是归一化后的边框长和宽，confidence是置信度

4、每个网格单元还需要预测C个类别信息的概率，表示一个网格单元包含目标的概率

5、文中设定每个网格预测B个边框，讲网格划分为7*7的大小，VOC数据集上有20个类别，因此每个网格单元需要预测20个类别概率

网络设计

1、卷积层负责提取图像特征，全连接层负责预测输出的概率和坐标

2、网络由24个卷积层和2个全连接层组成，网络结构如下图所示：

训练网络

1、使用ImageNet一千类的数据对网络进行了与训练，网络输入为448*448

2、网络最后一层负责预测类别概率和边框的坐标，边框的宽和高通过使用了输入图像宽和高进行了归一化处理。（x,y）是归一化后网格位置的偏移

3、网络最后一层使用了现行激活函数，其他层使用的系数为0.1的liaky ReLU激活函数

4、使用平方误差对网络进行优化，因为平方误差容易优化，但是平方误差存在的问题是：8维的信息坐标和20为的类别概率被认为是同等重要，这并不是理想的处理方式。并且网格中可不能不包含目标，这将导致置信度为零，在训练初期可能导致网络发散。因此通过设置两个参数来纠正这个问题，增加8维的信息坐标的权重

5、每个网格负责预测B个bounding boxes，而在训练的过程中，只需要IOU最大的那个预测

6、损失函数如下图所示：

YOLO 的缺点：

1、如果两个物体落在同一个网格单元，YOLO模型只能预测出一个目标结果

2、对训练集中不包含的长宽比检测效果比较差

阅读全文

0 0