Improving Facial Attribute Prediction using Semantic Segmentation, in arxiv 2017.04

来源：互联网发布：ptgui 控制点优化编辑：程序博客网时间：2024/06/08 02:57

笔者最近在关注fine-grained方面的paper，发现有以下的方面去做：

1 part-based

2 weakly-supervised的，如second-orderless pooling（Compact Bilinear Pooling）等

3 还是weakly-supervised的，但用上了proposals/grids/regions（如selective search）等，在网络中同时做classification和detection。

该论文Improving Facial Attribute Prediction using Semantic Segmentation, In arXiv， 2017.04.同样是怎么利用image-level的labels，如人脸属性来做人脸属性分类的。

本博文除了该论文，还会涉及到另外一篇论文Weakly Supervised Deep Detection Networks. In CVPR, 2016.

废话少说，当然细节的东西还是各自看论文去。

由于这次的重点不是说论文里面的face parsing。至于怎么做face parsing的，还是看论文去。上面的图1的一个前提条件是，已经训练好face parsing net的了，而且由这个net来提供face的parsing maps。在做face attr分类时，parsing maps直接resize到对应conv feature maps的大小。

图1的b）和c）挺有意思的，但是从论文上看SSG的作用不大。不管怎样，SSG和SSP的目的是，利用parsing的结果来refine分类模型学到的feature map，使得模型能够充分利用spatial information（一般的做法是在最后一层做global pooling，这显然是spatial orderless的）：即每个feature map只响应一个对应part region（这里用parsing来表示）。

笔者比较感兴趣的是SSP，所以在这里就说下Weakly Supervised Deep Detection Networks. In CVPR, 2016.

这里需要弄清楚的一个概念是，detection branch，其实和classification branch是没有太大区别，区别在于如何做softmax的：

classification的目的是，判断该region会是哪个类别，而detection的目的是，判断某个类别会在哪些region出现，非常make sense。

这个就是网络的架构图，具体的细节看论文去。

整体上，这样做都是为了学到更好的特征，而且是在weakly-supervised的约束下。

至于有没有效果，就看你怎么用了。

=====

如果这篇博文对你有帮助，可否赏笔者喝杯奶茶？

0 0