论文理解：DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

来源：互联网发布：上证综合指数季度数据编辑：程序博客网时间：2024/04/24 15:52

本文为香港中文大学与熵汤联合出品的一篇CVPR。获取链接：http://www.ee.cuhk.edu.hk/~xgwang/papers/liuLQWTcvpr16.pdf

即将入坑的和已经入坑的小伙伴可以添加QQ群交流：

群名称：AI服装检索分类

群号：474700336

主要包含两个工作：

1. 创建了一个服装数据集DeepFashion，包含80万张服装图像，有类别，属性，特征点以及服饰框的标注。详情可以参考我的另一篇博客DeepFashion: 服装公开数据集概述。

2. 提出一个深度学习模型FashionNet，结合服饰属性和特征点进行服饰的特征提取，可以较好的应对服饰的变形遮挡等问题。

文中提出结合特征点能够有助于服装识别，同时，大量的属性信息能够更好的划分服饰特征空间，从而能够有助于服饰的识别和检索。示意图如下：

FashionNet的网络结构类似VGG-16，只是将VGG16的最后一个卷积层进行了修改，改成能够处理服装landmarks，属性和类别的网络。最后一层的网络示意图如下。

从上图可以看出，VGG16的最后一个卷积层由作者设计的三个分支代替。

最右侧蓝色分支进行特征点可见性预测以及位置回归。

中间绿色的分支，有两个输入：VGG16的conv4 + 右侧蓝色特征点的分支输出结果，根据特征点的位置进行局部feature pooling。这一步有助于应对服饰变形和遮挡问题。

左边橘色分支，进行全局的特征处理。

绿色和橘色分支运算的结果经过fc7_fusion进行融合，预测服装的类别，属性和pairs

反向传播过程定义了4中损失函数：

（1）回归损失，用于特征点位置估计损失计算。

（2）softmax损失，用于特征点可见性以及服饰类别估计损失计算。

（3）cross-entropy损失，用于属性预测损失计算。

（4）triple损失，用于服饰pairs预测损失计算。

FashionNet是通过将以上4中loss进行加权处理进行优化的。训练过程分两步：

step1：将特征点可见性预测与位置估计作为主任务，其余作为辅助任务，因此该过程中给L_visibility 和 L_landmark较大的权重，其余损失赋予较小的权重。

由于任务间有一定的相关性，因此这种多任务联合处理的手段能够加速收敛。

Step2：使用特征点分支的预测结果，进行类别，属性以及pairs的预测。

以上两步不断迭代直至收敛。

实验部分未完待续

阅读全文

0 0