YOLO阅读笔记

来源:互联网 发布:linux 发送tcp报文 编辑:程序博客网 时间:2024/06/07 19:38

YOLO的有点(摘自YOLO原文):

1、YOLO检测框架速度非常快,Tian X可以达到45帧/s,

2、比起其他实时检测框架具有更高的精度

3、背景检测错误低

4、对艺术图像依然有很好的检测效果

缺点:

检测精度比低于当前最好的检测框架


统一检测:

1、将图像分成S*S的网格,物体中心落在某一个网格中,则该网格负责预测该物体

2、每一个网格对预测B个边框和置信度,若网格中没有目标则置信度输出为0

3、每个边框包括5个预测值:x,y,w,h和confidence. 其中x,y表示相对于网格的边框中心,w,h是归一化后的边框长和宽,confidence是置信度

4、每个网格单元还需要预测C个类别信息的概率,表示一个网格单元包含目标的概率

5、文中设定每个网格预测B个边框,讲网格划分为7*7的大小,VOC数据集上有20个类别,因此每个网格单元需要预测20个类别概率


网络设计

1、卷积层负责提取图像特征,全连接层负责预测输出的概率和坐标

2、网络由24个卷积层和2个全连接层组成,网络结构如下图所示:



训练网络

1、使用ImageNet一千类的数据对网络进行了与训练,网络输入为448*448

2、网络最后一层负责预测类别概率和边框的坐标,边框的宽和高通过使用了输入图像宽和高进行了归一化处理。(x,y)是归一化后网格位置的偏移

3、网络最后一层使用了现行激活函数,其他层使用的系数为0.1的liaky ReLU激活函数

4、使用平方误差对网络进行优化,因为平方误差容易优化,但是平方误差存在的问题是:8维的信息坐标和20为的类别概率被认为是同等重要,这并不是理想的处理方式。并且网格中可不能不包含目标,这将导致置信度为零,在训练初期可能导致网络发散。因此通过设置两个参数来纠正这个问题,增加8维的信息坐标的权重

5、每个网格负责预测B个bounding boxes,而在训练的过程中,只需要IOU最大的那个预测

6、损失函数如下图所示:



YOLO 的缺点:

1、如果两个物体落在同一个网格单元,YOLO模型只能预测出一个目标结果

2、对训练集中不包含的长宽比检测效果比较差



原创粉丝点击