Improving Facial Attribute Prediction using Semantic Segmentation, in arxiv 2017.04

来源:互联网 发布:ptgui 控制点优化 编辑:程序博客网 时间:2024/06/08 02:57

笔者最近在关注fine-grained方面的paper,发现有以下的方面去做:

1 part-based

2 weakly-supervised的,如second-orderless pooling(Compact Bilinear Pooling)等

3 还是weakly-supervised的,但用上了proposals/grids/regions(如selective search)等,在网络中同时做classification和detection。

该论文Improving Facial Attribute Prediction using Semantic Segmentation, In arXiv, 2017.04.同样是怎么利用image-level的labels,如人脸属性来做人脸属性分类的。

本博文除了该论文,还会涉及到另外一篇论文Weakly Supervised Deep Detection Networks. In CVPR, 2016.


废话少说,当然细节的东西还是各自看论文去。


由于这次的重点不是说论文里面的face parsing。至于怎么做face parsing的,还是看论文去。上面的图1的一个前提条件是,已经训练好face parsing net的了,而且由这个net来提供face的parsing maps。在做face attr分类时,parsing maps直接resize到对应conv feature maps的大小。

图1的b)和c)挺有意思的,但是从论文上看SSG的作用不大。不管怎样,SSG和SSP的目的是,利用parsing的结果来refine分类模型学到的feature map,使得模型能够充分利用spatial information(一般的做法是在最后一层做global pooling,这显然是spatial orderless的):即每个feature map只响应一个对应part region(这里用parsing来表示)。


笔者比较感兴趣的是SSP,所以在这里就说下Weakly Supervised Deep Detection Networks. In CVPR, 2016.


这里需要弄清楚的一个概念是,detection branch,其实和classification branch是没有太大区别,区别在于如何做softmax的:

classification的目的是,判断该region会是哪个类别,而detection的目的是,判断某个类别会在哪些region出现,非常make sense。

这个就是网络的架构图,具体的细节看论文去。

整体上,这样做都是为了学到更好的特征,而且是在weakly-supervised的约束下。
至于有没有效果,就看你怎么用了。

=====
如果这篇博文对你有帮助,可否赏笔者喝杯奶茶?


0 0