行人属性“Improving Facial Attribute Prediction using Semantic Segmentation”

来源:互联网 发布:ubuntu中文乱码 编辑:程序博客网 时间:2024/05/18 07:46

论文使用语义分割的结果提升人脸属性预测的性能,主要思路来自许多人脸属性描述的是局部特性。通过语义分割挖掘局部线索,指导属性预测时关注该属性来自的区域。使用bbox描述不同区域的边界是常用的方法,但人脸的不同bbox无法准确描述,因此论文使用像素级的语义分割结果。

属性预测一般方法,图像输入到cnn,得到特征图,聚合输入到分类器。但全局池化与空间无关,通过语义分割将图像分割为不同的区域,论文学习哪部分区域参加,及如何聚合这些特征图的激活。这种方法称之为SSP。

另外,可以在属性预测网络的浅层增加语义分割,使用gating机制。增强了最大池化操作,使其不对不同语义区域的激活进行混合。通过与语义区域进行元素级相乘,在最大池话层之前控制激活输出,生成不同版本的激活图,这种方法称之为SSG。

相关工作
属性预测有整体法和part-base法。论文使用整体法生成特征向量,同时采用局部语义分割的信息。
几种基于part预测的方法:
PANDA
Actions and attributes from wholes and parts
End-to-end localization and ranking for relative attributes

方法描述
1. 基础属性预测网络
12-层cnn,前8层与语义分割的encoder部分类似,后4层卷积层滤波器数目分别为512,1024。最终使用全局平均池话生成1024D向量表示。语义分割网络为:
这里写图片描述
2. SSP
将最后一个卷积层的激活分解为不同的语义区域,仅聚合相同区域内的激活。此时获得多个1024D的表示,每个表示一个语义区域。SSP将标记信号的反省传播和不同语义区域关联。SSP激活与全局平均池化的对比为:
这里写图片描述
每个区域的向量表示,传到两个分支,分别进行识别和定位。之后进行归一化,两个分支加权平均,结构如图1右图所示:
这里写图片描述
3. SSG
聚合不同区域内的激活,易导致模型混淆不同的如下,如“smiling”和“wavy hair”。为控制圈基层激活输出,使用N=7个语义区域与激活图相乘,生成7个激活图的备份,接着最大池话这些gated激活图。结构如图1中所示。

实验结果
这里写图片描述

阅读全文
0 0
原创粉丝点击