论文笔记Deeply-Learned Part-Aligned Representations for Person Re-Identification

来源：互联网发布：有限制的网络连接编辑：程序博客网时间：2024/05/23 18:15

摘要

本文针对局部身体错误匹配问题，提出一种局部对齐特征表达的方法

将人体分割成有区别特征表达的部位，计算所有部分区域的相似度的和作为总的得分

我们的方法是被注意力模型所激励的，我们计算3元损失不需要局部的标注

1.介绍

如果相机是重叠的，他就是检索问题。temporal information没有办法别利用，

局部特征都是使用网格或者横条，不过这种都是默认行人的身体都是相似的，实际上回归框是检测的，不是手动标定的，行人会有不同的姿势，也就是说空间位置并没有很好地被人体结构所对其齐，因此后续复杂的匹配方法来匹配不对齐也是不可靠的。

本文提出的方法解决不对其问题，并不是在特征表达阶段，本文的研究方法就是

1.直接检测有区别的的区域

2.在各个部分之间计算特征表达

3.累计相对应位置·的相似性的总得分

受注意力模型的激发，本文将局部特征提取以及特征相似度计算做成end to end的模式，，通过最大化重识别的质量进行参数学习，同时不用局部标签信息，很神奇。同时本文采用的是图像语义分割，而不是简单的图像空间分割。

2.相关工作

特征学习的目的是让学习到的特征，当姿势或者光照变化时，具有大的方差，容易区分样本。而度量学习的方法就是学习到一种映射矩阵使他们对变化的光照姿势更加鲁邦。

比较好的方法是一起学习特征表达以及相似性度量，而不是将其当为分类的损失，每一种人当做是一类，如何理解相似性学习很重要。

深度学习直接使用VGG的全连接层的的4096向量，当做特征向量，但这种方法没有显示地对空间信息以及上下文信息进行建模，因为这些信息对于后续解决身体部分不对齐有很大作用

论文【45】将人为生成的距离欧式距离以及匹配网络进行了结合，同时【43】不仅使用了最后一层特征图进行匹配，还使用了中间层特征辅助匹配

本文的重点在于特征提取，以及构建一种行人重识别对齐的网络，本文的方法和一些现存的对齐的方式不同，因为之前都是基于检测模型，以及位姿模型都是使用了语义分割，而且这些局部信息都是被标签的，而且都是先分割在提取特征，过程是分开的。

本文没有使用标记信息，只是使用了相似的信息（一对行人他们是相同的还是不同的）去学习局部信息用于重识别。同时本文使用了语义分割deeplab和位姿估计convolutional pose machine进行了审核评估。

3.本文的方法

本文的排序问题采用的是triplets loss,前两个是一对正样本，后两个是一对负样本，我们的目的是让正样本之间的距离比比负样本之间的距离小.

3.1 局部对齐表达

本文的方法没有将图片分割为水平条或者竖直条，而是将其分割为对齐的部位

本文的方法的第一步是经过FCN输出一张完整的特征图，之后经过局部检测器输出的对齐的局部特征图，之后再经过全局平均池化，之后经过一个线性层在通过一个cat网络将所有的局部特征相连产生了最后的特征。然后将特征经过L2正则化，就得到了最终的特征表达。

3.2优化

使用minibatch而不是直接使用triplet可以减少计算

3.3实现细节

网络结构：

本文采用了goodle net的部分网络作为初始的特征提取网络，特征图的大小变为原来的1/16output of inception 4e, followed by a 1 1 convolutional layer with the output of 512 channels。数据与处理上面，我们采用了水平翻转，K个部分检测器则由交叉验证进行确定。局部检测器就是一个1*1大小的卷积层，之后再通过一个relu激活函数

网络训练：

网络模型使用IMagenet上面的图片，并且经过googlenet进行的初始化，我们采用了mini-bitch的方法，每一个bitch是400张照片，一共有40类，每一类有10张照片，每一次迭代计算了1.4百万次损失。而且只是有一部分的3元组（损失大于0）才是对权重更新是有用的。并统计这些数量将原有的样本数量T图替换。

3.4讨论

空间分割以及身体局部分割：按照空间分割的方式，效果不好。目前的方法是通过构建复杂的匹配网络来解决不对齐的问题，本文是在特征表达的阶段来解决不匹配的问题，而在匹配的方式上只是采用了简单的欧式距离。

当人比较靠近图像右侧，或者人比较小的时候，都可以有较好地对齐的效果。

学习部分身体：头部没有被包括，因为低分辨率以及脸部不一定会正向对于区分不同的行人不可靠。皮肤的颜色没有办法提供有区别的信息，除非是没有办法必须被包括。map1到map3 描述顶部，map4到map6是描述底部

独立的局部分割：我们用了2015年的分割模型与我们进行比较，我们把part net中的mask，用分割网络中的mask进行了替换，效果不是很好，因为PASCAL-Person part数据集不是专门为了重识别而涉设计的

4.实验

4.1数据集

简单介绍一下以下数据集，通过做实验，确定将行人分为8块区域的话，效果是比较好的。

4.2评价

评价指标还是CMC权限，以及map。这个神经网络应该是让网路通过训练来让网络学习如何来找到对齐的网络，学会之后使用这种网络进行对齐的part部分特征提取，还是提取完特征之后使用简单的欧式距离进行相似性度量，根据相似性的高低返回ranklist

4.3经验分析

part的数量：就是在CUHK03数据集上，做实验K=8效果比较好，如果是其他数据集K的选取可以重新做实验，因为这是一种经验值。

人体分割以及部分人体分割：人体分割也可以将背景去除，不过效果不是特别好，因为他没有将人体部分对齐

不用分割的方式：如果采用全连接或者全局平均池化也会产生512维特征向量，不过全连接的方式，也有一些能力去区分空间区域，不过要是对对所有的照片来说就会产生限制。全局平均池化的方法忽略了空间信息。本文的方法最好。

特征提取的网络：本文的最好

与注意力模型比较：使用sigmoid代替softmax提高了2%的精度，CAN这种模型也是提取part maps不过它采用了LSTM的方法，对于我们不容易去实现

阅读全文

0 0