Dual Low-Rank Pursuit: Learning Salient Features for Saliency Detection

来源:互联网 发布:光良 童话 知乎 编辑:程序博客网 时间:2024/05/17 22:37

前言

我们院郎老师发在IEEE Transactions on Neural Networks and Learning System上的一篇文章。发表期刊为工程技术类顶级期刊,最新IF为4.854,还是相当厉害的。文章还是挺有新意的,正文为我对这篇paper的一些理解。好文章理应好好品味。

简介

文章标题为:双重低秩追踪:学习显著特征用于显著性检测。从文章标题大体上就可以看出该文的一个创新点是“双重低秩”,解决的就是显著性检测的问题。需要注意的是,作者使用了数据集的监督信息(supervision information),以此来指导背景低秩字典(dictionary)的建立,从而能显著提升检测效果。这篇文章的贡献主要有三个方面:
  • 提出有监督的标注(fixation)判定方法(此处的标注意为从图像中找到显著性物体的位置),从而将高层信息整合到低秩求解的过程中。通过使用数据的监督信息,得到的定位结果更加鲁棒且能够捕捉到高层的显著性物体;
  • 提出一种新的方法去学习特征变换,从而有利于标注判定。学习到的特征变换将特征嵌入到低秩非显著的特征空间中。与先前在稀疏表示中使用预先定义基底的方法相比,使用特征变换构造的字典在新的数据集上具有更好的适应能力,实现了更好的泛化表现;
  • 将低秩特征学习与标注判定整合到统一的框架(DLRP)中,特征学习与标注预测二者相互促进,进一步增强定位预测的表现。
(注:fixation prediction翻译为标注预测有些怪怪的,感觉就是显著性检测的问题啊,为什么起了这么一个名?苦于没有找到更合适的翻译,暂且将就一下,理解其表达的意思就ok了。全文中,基底、基、字典为相同意思。)

预备知识

在这篇文章里,基本操作单元是图像块(patch).也就是说,将图像先规整地分为一个个的图像块,然后基于图像块的视觉特征来估计每个图像块的显著性值,通过融合所有图像块的估计显著性值来生成最终的定位图(fixation map).显然,准确估计每个图像块的显著性值对获得准确的定位图至关重要。
假设一张图像被分为m个图像块,对第i个图像块提取d维的特征记作xi,m个特征向量组成表征整幅图像的特征矩阵X=[x1,...,xm].基于稀疏的方法如下:

XZ通过对X自身的线性组合来表示非显著(背景)的图像块,由于非显著图像背景的自相似性,导致Z是一个低秩矩阵。说的通俗一点,每个背景图像块是比较相似的,则其在同一个基下的线性表示系数也应该是比较相似的,从而Z具有低秩性。残留部分E代表显著图像块。注意对E的约束为混合范数,从而鼓励E为列稀疏。
上面基于稀疏的方法可以进一步推广,使用K个不同的特征来寻求显著图像块,模型如下:

这里有一个值得思考的问题:对每个特征求低秩稀疏分解与将所有的特征融合到一个特征矩阵中求解有什么不同呢?回头再来回答这个问题!

可以发现,上述均为由底向上的方法,仅仅使用从图像中提取的底层特征来判定标注图(predict fixation map).由底向上和自顶向下的区别就在于是否使用高层信息,所谓高层指的是某些标注、先验知识等。
以上内容的细节可参照两篇文章:Saliency Detection by multitask sparsity pursuit, TIP,是同一作者;另一篇是刘光灿老师提出的LRR低秩表示模型,Robust Subspace Segmentation by Low-Rank Representation,包括本文在内的很多工作都是建立在LRR之上的。

双重低秩追踪

动机:带监督的低秩字典学习

在预备知识部分,基于稀疏的方法使用特征矩阵自身X作为字典用来标注判定,如此直接的方法导致一个不可避免的问题就是显著性点连同杂乱的背景都会作为基底,使基底污染影响定位的表现。换句话说,只有对应背景部分的特征向量作为基底才能更好地线性表征非显著部分,不能很好线性表征的部分正是我们需要的显著部分。为了解决这个问题,作者提出使用数据集提供的点图信息来指导建立低秩字典表征背景部分,无法很好地表征显著性图像块从而将显著部分区分开来。拿文中使用的Toronto数据集为例:

上图是数据集提供的原图和map,本文就是希望借助map,用非高亮(不显著)部分对应的特征向量作为字典,这是一个“干净”的字典,能很好地表征背景,从而能迫使显著性部分尽可能地移动到稀疏矩阵E中。
大多数数据集提供了人工标注图(这里又有一个i问题了,既然已经提供了类似与groundtruth的人工标注图,为啥还要研究方法实现显著性检测呢?数据集提供的不正是显著性部分吗?)令S表示一幅图像的人工标注,S(x,y)表示坐标(x,y)处的显著性值,S被均分为多个图像块,第i个图像中第j个图像块所有像素显著性值的平均表示第j个图像块的显著性值,记作用S_i(j).为了在稀疏框架下使用监督信息学习出字典,构建对角矩阵指导低秩字典的学习。

为啥叫监督信息?其实就是数据集提供了图像的显著性值,也就是说每个图像块的S_i(j)是可以事先从数据集中获得的。如何指导低秩字典的学习?其实Ω与S是成反比关系的。比如说当前某个图像块是显著的,也就是说S中的某一列(对应一个图像块)的显著性值应该很大,此时Ω_i(j,j)就会很小,模型(2)为最小化模型,Ω小则允许E中的对应列Ei适当地大一些,对应着显著的列(图像块);相反,如果某个图像块非显著,意味着S中的某一些的显著性值会小一些,则Ω就会很大,而(2)为最小化模型,此时只能让E中的相应列Ei尽可能地小才能保证模型尽可能的小,也就是说对非显著的部分不太可能出现在E中。因此,在Ω的作用下,学习到的字典将仅包含用于检测非显著图像块的基底。同时由于背景信息的自相似性,其基底的秩亦不会太高,因此在优化函数里除了系数矩阵Z的低秩,还多了一项字典D的低秩要求,这应该就是标题中所谓的双低秩的萌芽吧。这里好像还不是真正的双重低秩,真正的双重低秩在下一小节正式提出,所以我称之为萌芽!

双重低秩追踪用于显著性特征学习

前面小部分提出的监督学习方法能够为图像中非显著图像块提供表征能力更强的字典。很显然,学习到的字典严重依赖于采用的训练图像,当使用新的具有不同视觉特征的测试数据时,字典的泛化能力较差。也就是说字典是从数据A中学习到的,拿具有不同特征的数据B做测试,显然字典不能有很好的表现。因此,作者就思考:能不能顺便学习一个特征变换,将特征变换作用于任何数据上都产生一个自适应的字典呢?也就是提出的模型DLRP:

与模型(2)不同的是,(3)将(2)中的D换成了Z0Xi.也就是说,DLRP目标是寻找一个变换Z0,将Z0作用于基底Xi上面对每个标注预测都生成一个合适的字典Z0Xi;这里的n表示n幅训练图像。学习一个特征变换的另一个动机是,常用的底层特征(颜色、对比度)等很难捕捉到高层的显著性概念。通过在(3)中使用人工标注信息,DLRP能够找到感知高层概念的特征变换。(论文中是这么说的,但是我对这一点有点疑惑,(3)本质上应该就是对每一幅训练图像学习一个特征变换,下面证实了具备感知高层概念的能力?可是在哪里体现对其它测试数据具有泛化能力了呢?
如果第j个图像块是显著的,则学习到的特征变换能抑制显著性特征x_j.假设原始特征与变换后的特征差别较大,也就是说x_j不能用Z0x_j很好地表示,因此x_j被扔到误差项e_j里面被认定为是显著的。在这种情况下,学习到的特征变换Z0对显著性特征具有一定的辨别能力。
当然,提出的模型可以进一步推广到多特征版本,K表示K种特征,得到的模型如下:

在论文实验中,使用多特征版本的DLRP进行评测。

显著性检测 

使用了三种特征。如何对新图像进行标注判定呢?使用学习到的特征变换来转换提取到的三种特征,对转换的特征进行如下低秩稀疏分解来检测显著性图像块:

得到的E{k}则表示不能用ZX表示的显著图像块。因此,第i个图像块的显著性值可以通过每个特征下得到的E{k}通过下式计算:

Si越大,则第i个图像块越可能是显著的。

模型优化

这一部分都是一些套路,我对套路没有很深的理解,暂且略过。

对特征变换Z0的讨论

以监督方式学习到的特征变换Z0能够抑制显著图像块的特征迫使其进入到稀疏项中。为了验证这一点,我们对每幅图像计算响应图表示原始特征和变换特征之间的差异,每个图像块之间的差记作,x表示原始特征,r然后被归一化到0-1之间, 经高斯平滑后的可视化的一些样例见下图:

响应值越大,表示当前图像块在变换下被抑制地越厉害。从上图可以看到,学习到的特征变换能够保持非显著区域的特征,抑制对应高层概念图像块的特征。因此,学习到的特征变换能够整合高层的语义信息。

实验部分就不细说了,反正结果不错,结果差的话也发布了这种级别的期刊。对于实验中提及的各种评价指标,我会慢慢地研究,明白之后会逐渐整理到博客上来。注:所写内容纯粹为我个人对这篇文章的一些理解,可能未必准确,有任何问题都可以发邮件至jzwang@bjtu.edu.cn讨论交流。
0 0
原创粉丝点击