CS231n:Localization and Detection(定位与检测)

来源:互联网 发布:无需备案的域名 编辑:程序博客网 时间:2024/06/05 17:54
  1. 分类与定位

    1. 作为回归问题的定位
      这里写图片描述

      1. 一般步骤
        1. 训练(或下载)一个分类网络
        2. 在网络后添加全连接regression head
          3.仅仅用SGD与L2 Loss 来训练网络
        3. 在测试时,计算两个网络
      2. 在确定总类别为C类的情况下训练网络.
        将定位的bounding box输出改为C×4numbers 效果更好
        这里写图片描述

      3. 在何处加入 regression head
        这里写图片描述

      4. 同时定位(确定数目的)多目标
        假设在图像中定位给定K 个目标. 那么将regression head输出改为 K×4numbers
        应用于人的姿态检测(用K 个关节点来表示人的结构)

    2. 滑动窗口
      1. 一般步骤
        1. Run classification + regression network at multiple locations on a high resolution image (注意:在多尺度上运行窗口,同时定位出的bounding box, box可以超出图像(窗口)本身的大小),在下图中左上角窗口定位出的box超出了窗口本身,同时不仅输出了相应窗口,还输出了对应窗口的置信度
          这里写图片描述
        2. Convert fully-connected layers into convolutional layers for efficient computation 将CNN卷积特性直接用于了多尺度窗口计算,加快计算
          这里写图片描述
          对于这张图的流程与意义还不甚了解,求讲解
          这里写图片描述
          理解:将全连接层变为了卷积层,这样在检测时可以利用多尺度输入.如图,认为第一行网络是对于14*14的图像而言,输出了一个实数,代表测试样本属于某一类的概率,那么如第二行所示,输入了16*16的图像,最终输出2*2的矩阵,就是在利用14*14的窗口滑动对16*16的图像采样,输出的矩阵对用每个取样窗口的置信值
        3. Combine classifier and regressor predictions across all scales for final prediction**接上,对于每一个窗口,不仅有运行的分类网络,还有regressor net给出一个bounding box,这样,对每一个Bounding box 都有一个置信度与之对应,综合得到最后的分类与box**
  2. Detection检测(Output size inconstant)
    1. 作为分类问题来处理:划分多个尺度下的多个窗口,然后对每个窗口做分类
      1. HOG and DPM Need to test many positions and scales(对每个窗口提取特征值然后分类)
      2. using Region Proposals
0 0
原创粉丝点击