文章分享:“ why is facial occlusion a challenging problem?”以及对Sparse coding人脸识别的探讨

来源:互联网 发布:返利网 淘宝 打不开 编辑:程序博客网 时间:2024/05/02 01:22

       最近读了一篇SCI神文:why is facial occlusion a challenging problem?

    文章大概讲了这样一件事情:

    目前有很多学者都在研究人脸被遮挡情况下的识别问题,大家普遍关注的是在人脸部分遮挡情况下(戴墨镜、围围巾等)如何提高计算机的识别率,而忽略了思考为什么遮挡会导致识别率下降。

    一种直观的解释是遮挡部分的信息丢失了,因此识别率下降了。

    作者通过实验发现并不是这回事,识别率下降的真正原因是遮挡情况下人眼定位不准确。

    作者在文中做了测试,使用的识别算法是局部纹理识别算法(LAFR)。

    首先,对预先存在遮挡的一组图片进行对比测试。实验结果表明:戴墨镜的识别率远低于围围巾的识别率(分别为38%左右和92%左右);


    而后,对预先不遮挡、眼部已经标定的一组图片进行测试。实验结果表明:在手工添加遮挡的情况下,眼部遮挡的识别率与下颚遮挡的识别率不相上下(分别为96%左右和95%左右,下滑幅度不明显)。


    上述实验结果,作者认为:无论是人还是算法,在人脸对齐过程中都严重依赖于眼睛的位置。在先遮挡后对齐的情况中,墨镜严重破坏了这一信息,而围巾却没有,因此出现了检测率的显著差异;而在先对齐后遮挡的情况下,由于图片事先已经对齐,无论怎么遮挡都不会影响图片的位置,所以眼部遮挡和下颚遮挡的识别率都没有太大差异。作者的结论是:遮挡导致识别率下降的主要原因不是信息丢失,而是人眼标注困难。目前几乎所有的人脸识别算法都严重依赖于人脸的预先对齐,以eigenfaces算法为例,出现5%的定位偏差就会导致人脸分类错误。因此解决遮挡问题的关键不在于补偿丢失的信息,而在于如何对准人脸。

    该文章于2009年发表在ADVANCES IN BIOMETRICS上,到目前为止google scholar上已有20多次的引用率,其中不乏CVPR、TIP、PR当中的文章。

    之所以称该文为神文,有几个原因:

    1.名字碉堡了;全文上下没有一个数学公式和推理证明 ,讲讲故事就把文章写完了,除了SCIENCE上的大牛,我还没见过这么霸气的作者!

    2.没有复杂的实验数据,几个百分数就把结论讲完了; 

    3.第一作者Hazm Kemal Ekenel是个博士生,第二作者Rainer Stiefelhagen是他的导师,二人貌似都不是什么大牛,而这样简单的一篇文章居然中了,引用率还很高!

    4.结论比较新颖(这应该是引用率高的原因吧)。

    这样看来,要发表SCI其实并非要大堆的数学公式和推理,大量的实验数据才行,有时候恰恰是因为我们找不到别人没做过的事情、得不到简单有效的结论,才不得不用大堆的公式和数据来让自己的文章看起来很牛B。

    孙子所说的“上兵伐谋”,很符合这篇文章的特点。

    

    另外,如果这篇文章的结论是正确的话,John Wright的文章将受到质疑。

    2007年和2012年,PAMI的会员John Wright分别以第一和第二作者在PAMI上发表了基于Sparse coding(稀疏编码)实现人脸识别的论文【1】【2】。在这两篇文章中,John构建了与本文相似的实验环境:在已经对齐的人脸上添加各种遮挡物。实验表明:Sparse coding在该环境下能有效识别人脸。John Wright认为这都归功于Sparse coding自身的优点;但在实际环境中,Sparse coding存在同样问题:当人脸出现轻微移动、旋转时,Sparse coding的识别率大幅度下降(其实John发表在PAMI2012上的文章主要都是在讨论如何预先对齐人脸和调整光照,从而提高Sparse coding识别率)。

 

图来自【1】,当对原始图片进行遮挡时,Sparse coding 表现出了不错的识别率


上图来自【2】,左边的黑框表示VJ人脸检测算法给出的人脸区域,白框表示理想的人脸区域,右边的红线表示样本的实际归属。TOP表示当样本库中光照样本充足,但检测区域出现轻微误差时,Sparse coding给出的结果不准确;Middle表示当检测区域准确,但样本库中光照采样不充足时,Sparse coding给出的结果也不准确;只有检测区域也准确,样本库中包含各个光照条件的样本时,Sparse coding给出的结果才准确,如Bottom所示。

    从今天这篇文章的结论来看,Sparse coding本质上并没有战胜传统的识别方法:LAFR在先校准后遮挡的测试集中也取得了93%以上的识别率;Sparse coding也没能克服传统方法存在的问题:当人脸出现轻微旋转或移动后,sparse coding方法识别率也大幅度下降。 

    因此,John Wright的主要成就就不再是发现Sparse coding在完成人脸识别上有多么多么优秀,而仅仅在于首次利用Sparse coding实现了人脸识别。

    最后顺便说一下,本文作者的导师Rainer Stiefelhagen教授看来是个天生卖萌的家伙,他的另一个学生在CVPR2012发表的文章名为“Knock! Knock! Who is it?” Probabilistic Person Identification in TV-Series。同样霸气侧漏的名字,整篇文章中的案例都来自“The big bang”,牛逼的人生不用解释!


【1】John Wright,Robust Face Recognition via Sparse Representation,TPAMI2007.

【2】Andrew Wagner,John Wright,Towards a Practical Face Recognition System:Robust Alignment and Illumination by Sparse Representation,TPAMI2012.

原创粉丝点击