coursera deep learning course4 week3

来源:互联网 发布:android网络请求 编辑:程序博客网 时间:2024/06/06 20:10
  1. 定义
    这里写图片描述
    图像分类:对单一分类
    分类并定位:也只是对单一物体分类并加框
    目标检测:分类图片中的各种物体并分别加框

  2. objcet localization
    这里写图片描述
    若要检测三类目标,标签可设置为长度为8的向量,第一个Pc指示途中是否有图片(可以用逻辑回归);二到五分别为bx,by,bh,bw,分表代表物体的中心坐标,物体的高和宽(可以用MSE);最后三个指示是否为类别(可以用softmax)。视频说全用均方误差也能效果不错。

  3. sliding windows detection
    用不同大小的框遍历整个图片,缺点是计算量很大。

  4. FC层转为卷积层
    这里写图片描述

  5. 滑窗目标检测的卷积实现
    这里写图片描述
    最终每个深度都是一个滑窗的效果,缺点是bounding box的位置不是很准确。

  6. YOLO
    这里写图片描述
    将图片进行分格,并将物体中点作为物体在哪个格的标志。并且由于格子可以尽量小,因此可以将每个格子看作分类与定位。如图中所示标签为3x3x8,前面两个为格子数。这里讲的是简化版的,还有许多技巧能使效果更好。

  7. Intersection over union(IoU)
    这里写图片描述

  8. 非最大值抑制(non-max suppression)
    相邻的cell可能会预测到相同的物体,需要挑出最大概率的框并对其他超过一定阈值的框进行抑制,然后在剩下的框中继续操作,直到全部完成或者找到的框达到设置的boxes_threshold。

  9. Anchor box
    这里写图片描述
    对于重叠的目标,这些目标的中点有可能会落在同一个网格中,对于我们之前定义的输出:yi=[Pc bx by bh bw c1 c2 c3],只能得到一个目标的输出。

而Anchor box 则是预先定义多个不同形状的Anchor box,我们需要把预测目标对应地和各个Anchor box 关联起来,所以我们重新定义目标向量:
yi=[Pc bx by bh bw c1 c2 c3 Pc bx by bh bw c1 c2 c3⋯]
用这样的多目标向量分别对应不同的Anchor box,从而检测出多个重叠的目标。

  • 不使用Anchor box:训练图片中的每个对象,根据对象的中点,分配到对应的格子中。输出大小(例如8):n×n×8;
  • 使用Anchor box:训练图片的每个对象,根据对象的中点,分配到对应的格子中,同时还分配到一个和对象形状的IoU最高的Anchor box 中。输出大小(例如两个Anchor box):n×n×16。
    我不懂anchor box的指定大小是什么意思,是就指定几个规定形状的框还是最后可变的

特殊情况:

  • 如果我们使用了两个Anchor box,但是同一个格子中却有三个对象的情况,此时只能用一些额外的手段来处理;

  • 同一个格子中存在两个对象,但它们的Anchor box 形状相同,此时也需要引入一些专门处理该情况的手段。

但是以上的两种问题出现的可能性不会很大,对目标检测算法不会带来很大的影响。

Anchor box 的选择:

  • 一般人工指定Anchor box 的形状,选择5~10个以覆盖到多种不同的形状,可以涵盖我们想要检测的对象的形状;

  • 高级方法:K-means 算法:将不同对象形状进行聚类,用聚类后的结果来选择一组最具代表性的Anchor box,以此来代表我们想要检测对象的形状。

候选区域(region proposals)

R-CNN(Regions with convolutional networks),会在我们的图片中选出一些目标的候选区域,从而避免了传统滑动窗口在大量无对象区域的无用运算。

所以在使用了R-CNN后,我们不会再针对每个滑动窗口运算检测算法,而是只选择一些候选区域的窗口,在少数的窗口上运行卷积网络。

具体实现:运用图像分割算法,将图片分割成许多不同颜色的色块,然后在这些色块上放置窗口,将窗口中的内容输入网络,从而减小需要处理的窗口数量。
这里写图片描述

改进算法:

  1. R-CNN:给出候选区域,对每个候选区域进行分类识别,输出对象 标签 和 bounding box,从而在确实存在对象的区域得到更精确的边界框,但速度慢;

  2. Fast R-CNN:给出候选区域,使用滑动窗口的卷积实现去分类所有的候选区域,但得到候选区的聚类步骤仍然非常慢;

  3. Faster R-CNN:使用卷积网络给出候选区域。

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 沭阳租房信息 沭阳旧货市场在哪 沭阳房屋出租信息 沭阳门面房出租 沭阳招聘信息 沭阳人才招聘 沭阳人才网招聘 沭阳招工信息 沭阳二手货车交易市场 沭阳特产有哪些 沭阳口腔医院 沭阳特产小吃 沭阳是哪里的 沭阳吧招聘长白班 沭阳吧论坛企业招聘 沭阳吧征婚 沭阳县属于哪个市管辖的 花香沭阳网站 沭阳自考网 沭阳招标投标网 沭阳相亲网 沭阳房价网 沮的组词是什么 沱江舰 沱江边的临江客栈 沱江在哪里 沱江龙 沱沱河火车站 50度沱牌酒价格 沱牌酒所有图片及价格 四川沱牌酒价格表大全 金沱牌酒50度六粮价格 沱牌曲酒20年价格 驼牌酒价格表和图片 沱牌酒师傅 沱牌岁月酒38度价格 批发沱牌酒 沱牌年份酒 沱牌酒42度所有图片 52度高粱酒 刘伶醉酒54度浓香型价格表