行人检索“An Improved Deep Learning Architecture for Person Re-Identification”

来源：互联网发布：同步文件软件编辑：程序博客网时间：2024/05/21 17:35

做行人检索的文章，输入是一对图像，网络输出这对图像的相似度值，新引入的网络层包括跨输入邻域差值层，根据图像对的卷积特征图计算局部关联，之后使用加和特征对输出特征图的邻域进行加和，最后计算远距离像素点的关联性。

检索包括两部分，特征提取和特征相似度衡量。
传统的特征提取方法：颜色直方图，LBP，Gabor，local patch。
相似度度量：M氏距离，LFDA，MFA。

网络架构：two layers of tied convolution with max pooling, cross-input neighborhood differences, patch summary features, across-patch features, higher-order relationships和一个softmax层估计输入的图像是否是同一个人。

这里写图片描述

1.Tied 卷积层
网络的前两层是卷积层，分别计算两个输入图像的卷积特征，两个视角的网络权值共享。网络输入RGB图像大小60*160*3，使用20个5*5*3的滤波器卷积，之后池化将特征图长宽减半，然后将特征图使用25个5*5*20的滤波器卷积，池化将特征图尺寸减半，最后得到的两个特征图大小为12*37。

2.跨输入邻域差值
两个绞在一起的卷积层分别提供了25个特征图，用于计算差值图Ki，在5*5的邻域中计算差值，每个Ki是12*37个5*5的网格，即，
这里写图片描述

另外通过将fi,gi换位置构建K′i。

3.Patch Summary Features
主要是对5*5的block进行加和，将特征图的大小映射回12*37*25，通过将K与25个5*5*25的滤波器进行卷积实现，步长为5，得到L。对K′做同样的运算。

4.across-patch features
学习邻域差值的空间联系，将L与25个3*3*25的滤波器进行卷积，步长为1，之后进行池化，得到M为25个5*18的特征图。

5.Higher-Order Relationships
全连接层获取高阶联系，组合距离比较远的块的信息，并组合M，M′的信息，生成向量有500维，之后使用2个节点的softmax层分类。

特征可视化
下图显示了一个正样本和一个负样本每层的特征响应，正样本的响应集中在行人身上，负样本响应集中在背景上：
这里写图片描述

1 0