0827论文笔记

来源：互联网发布：石家庄广电网络编辑：程序博客网时间：2024/06/05 17:42

论文题目：

An Improved Deep Learning Architecture for Person Re-Identification

Abstract

这篇文章提出了一个能同时学习特征和对应的相似度量的行人再识别的方法。这个方法用的是一个深度卷积网络结构来解决再识别的问题
具体方法是给定一对图片作为输入，这个网络可以给出一个相似值来表明两个两幅图像是不是表示同一个人
新引入的网络层包括跨输入邻域差值层，根据图像对的卷积特征图计算局部关联，之后使用加和特征对输出特征图的邻域进行加和，最后计算远距离像素点的关联性。这是改进了CVPR2014年香港中文大学论文的网络结构（交叉视角的近邻差计算层+块总结层） mark这篇论文
这个层的输出的高维概括是通过一层Patch summary features来计算得到的，然后这些特征在空间上被整合到接下来的层
论文提出的方法在大型的数据库（CUHK03）和中型数据库（CUHK01）中的效果都比以往的要好，而且没有过拟合：在VIPeR小数据集上的效果也达到了state-of-the-art，具体做法是在无关的CUHK03上预训练模型，然后再在VIPeR上fine-tune得到模型。

Introduction

介绍了行人再识别（检索）的重要性和常用做法，并介绍了本文网络的创新点：引入两个层–a neighborhood difference layer & a subsequent layer

行人检索包括两部分，特征提取和特征相似度衡量。相关论文分别在这两个方面上找突破
传统的特征提取方法：颜色直方图，LBP，Gabor，local patch。
相似度度量：M氏距离，LFDA，MFA。

基于深度学习的两篇行人检索论文（2015之前）
Deepreid: Deep filter pairing neural network for person re-identification , CVPR, 2014
Deep metric learning for practical person re-identification, ICPR, 2014

Our Architecture

网络结构：成对的图片作为输入，底层分别在两幅图提取特征，高层计算这些特征的关系/相似度。卷积核的个数和大小如上图所示，比如上图的5×5×3->20表示这一层有20个卷积特征，每一个对应的卷积核大小是5×5×3，整个网络学习了2308147个参数

上图表明了网络结构：成对的图片作为输入，底层分别在两幅图提取特征，高层计算这些特征的关系/相似度。卷积核的个数和大小如上图所示，比如上图的5×5×3->20表示这一层有20个卷积特征，每一个对应的卷积核大小是5×5×3，整个网络学习了2308147个参数
层的设计：
two layers of tied convolution with max pooling, cross-input neighborhood differences, patch summary features, across-patch features, higher-order relationships和一个softmax层估计输入的图像是否是同一个人。

分别具体介绍如下：

1.Tied 卷积层
网络的前两层是卷积层，分别计算两个输入图像的卷积特征，两个视角的网络权值共享。网络输入RGB图像大小60*160*3，使用20个5*5*3的滤波器卷积，之后池化将特征图长宽减半，然后将特征图使用25个5*5*20的滤波器卷积，池化将特征图尺寸减半，最后得到的两个特征图大小为12*37。

2.cross-input neighborhood differences （跨输入邻域差值）
两个绞在一起的卷积层分别提供了25个特征图，用于计算差值图Ki，在5*5的邻域中计算差值，每个Ki是12*37个5*5的网格，即，

另外通过将fi,gi换位置构建K′i。

3.Patch Summary Features
主要是对5*5的block进行加和，将特征图的大小映射回12*37*25，通过将K与25个5*5*25的滤波器进行卷积实现，步长为5，得到L。对K′做同样的运算。

4.across-patch features
学习邻域差值的空间联系，将L与25个3*3*25的滤波器进行卷积，步长为1，之后进行池化，得到M为25个5*18的特征图。

5.Higher-Order Relationships
全连接层获取高阶联系，组合距离比较远的块的信息，并组合M，M′的信息，生成向量有500维，之后使用2个节点的softmax层分类

Visualization of Features （特征可视化）

这里写图片描述
上图是我们网络学习到的特征的可视化结果，底层学习到的图片特征对区分正负样本对很有效，更深的层学习两个视角下的关系从而最大化分类性能（上面是一个正样本对和一个负样本对每层的特征响应，正样本的响应集中在行人身上，负样本响应集中在背景上？）

网络训练

Data Augmentation（数据增强）

正样本少，负样本多，数据不平衡容易导致过拟合。作者通过利用label-preserving transformations [13] 人工扩大了数据集，并通过random 2D translation [16] 增强了数据。对于最小的数据集，我们垂直翻转了每幅图片

Hard Negative Mining

这个之前已经写过了，负样本太多容易导致误判为负样本，因此作者随机下次采样了负样本集来得到正样本两倍数量的负样本（after augmentation），然后训练网络。这样的收敛模型因为没有利用所有负样本对象所以效果不是最好的，我们用这个模型来分类所有的负样本呢对然后找到网络训练效果最差的负样本，然后再用这部分difficult negative pairs来重新训练网络的顶层全连接层。