Saliency Detection by Multi-Task Sparsity Puisuit

来源：互联网发布：手机用usb使用电脑网络编辑：程序博客网时间：2024/06/05 18:51

前言

这是很久之前看过的一篇文章，今晚突然想起来可能对我即将要做的工作有所启发，故重新阅读，写点收获体会。下面是我对这篇文章的一个简单翻译和理解，可能存在不准确之处，仅仅是我个人的看法。

摘要

这篇文章要解决的问题是在无监督的情况下做自然图像中的显著性检测。为了协同多特征用于显著性检测，本文提出了一个多任务稀疏追踪的方法。给定一幅多特征描述的图像，通过寻求连续的稀疏元素来推断其显著性图。推断过程被形式化为核范数和l21范数最小化的问题，该问题为凸且可以通过增广拉格朗日乘子法求解。先前的方法使用多特征往往是结合单特征得到的显著性图，而本文所提出的方法是联合优化多特征得到一个更为准确值得信赖的显著性结果。除了非监督的设置，本文所提出的方法也可以推广到监督情况下整合从顶向下的先验知识。大量实验证实了该文所提方法较其它先进方法的优越性。

简介

事实上一种广为接受的观点是，集成多种视觉特征对显著性检测大有裨益。不幸的是，在该方向上现存的方法多基于一种朴素组合的框架。典型的就是，在对每种特征单独计算解得显著性图之后，这些显著性图被正规化然后以一种线性或非线性的方式组合在一起产生最终的显著性图。在这个过程中，跨特征信息没能很好地利用起来，该类方法也很难产生值得信赖的结果。

为了有效地利用多重特征，在本文中作者针对显著性检测提出了一种多任务稀疏追踪(Multi-Task Sparsity Pursuit, MTSP)的模型，下图展示了所提出方法的框架，无论在动机上还是在方法上都较先前的方法有较大的不同。作者将显著性检测当作稀疏追踪问题来对待，通过集成多种特征实现来实现最终的显著性检测。在该框架下，由于很好地考虑到了跨特征信息，如此一个联合推断的框架较之前利用单特征单独产生显著性图的方法相比能够产生更为准确可靠的结果。推断过程被形式化为约束核范数和l21范数最小化问题，该问题为凸问题且能通过增广拉格朗日乘子法有效地求解。除了有能力对多特征联合建模外，所提出的MTSP的另一个优势是它具有很好的泛化能力，能够自然地集成从顶向下的先验知识来产生更为准确的结果。总而言之，本文的主要贡献主要有以下三个方面：

对显著性检测问题提出了稀疏追踪的框架。与现有的模型相比，所提框架能无缝整合多种特征到一个统一的推断过程中，该过程被形式化为一个凸优化问题。在做一些微调之后，所提模型亦能处理监督环境下从顶向下的先验；
基于所提的框架，作者建立了有效的显著性检测算法。大量实验证明所提算法表现极大地优于现有算法，且算法计算较为有效；
对联合稀疏追踪作者所提出的MTSP是一种普适的多任务方法。对其它相关工作或许也能有所帮助。

用于显著性检测的多任务稀疏追踪

问题形式化

令d*N维的矩阵X=[x1,...,xN]为一特征矩阵，每一列一个特征向量xi对应一个图像块Pi，问题就变为去寻找一个函数S(Pi)映射到[0,1]区间，函数S(Pi)被称为显著性图，该值越大表明Pi处越显著。该处叙述中一个弱点是仅考虑了一种类型的特征，为了更好的表现，我们考虑下面多重特征的情形。
令X1，X2，...,XK表示K种特征的K个特征矩阵，不同矩阵中的同一列对应相同的图像块。每一个矩阵Xi的大小为di*N，其中di表示特征的维度，N表示图像块的个数。然后该问题就变成通过集成特征矩阵X1,...,XK来寻找一个函数S(Pi)的过程。

多任务稀疏追踪

为了更好的理解，我们先探索形式化1问你，然后再相应地建立多特征(形式化2)情形下的算法。

单特征情形(形式化1)

对问题1情形本质上就是来找一个标准来度量和检测显著性。再人类视觉系统中，通常仅有辨别性的感受信息被挑选出来做进一步的处理。从这个角度看，显著性目标应该不同于背景（非显著）图像块。而且，背景块之间往往存在较强的关联性，也就是说，背景块通常是可以自我表示的。这表明，特征矩阵X或许能够分解为显著部分和非显著部分，即

其中XZ0代表可以自我表示的非显著部分，Z0为重构系数，E0对应显著性目标。

在没有任何限制的情况下，上面的问题有无穷多个解。为了寻求一个对显著性检测有益的解，我们需要一些标准来刻画矩阵Z0和E0。为此，我们有两个基本原则。一方面，正如在计算机视觉中大多数方法所采用的，我们假设仅有小部分的图像块是显著的，也就是说矩阵E0应该是一个稀疏矩阵。另一方面，背景图像块之间的强相关性表明矩阵Z0或许是低秩的。总结来说，对一个矩阵X=[x1,...,xN]每个xi表示第i个图像块的特征，通过求解下面的低秩表示模型来推断显著性图像块是合适的：

注意到对E0的约束是l21范数，其定义为矩阵列的2范数之和，即

这里为什么采用l21范数可以这样理解，最小化l21范数是希望矩阵列的2范数尽可能小，换句话说，是希望列稀疏，而我们前面提到了，每一列对应一个图像块且显著性图像块只占小部分，这也就将显著性图像块的少量和矩阵上的稀疏给对应起来了。令E0*为以上问题E0的最优解。为了获得第i个图像块Pi的显著性值，我们只需要对稀疏矩阵做如下简单处理即可：

S(Pi)越大表明图像块Pi越可能是显著的。在这种方式下，LRR模型就完成了显著性检测的任务。下图展示了该过程是如何发现显著性区域的。

多特征情形(形式化2)

上面的LRR模型仅能处理单一视觉特征，无法直接用于多特征的情形。为了将多特征结合在一起，正如许多现有方法所采用的，一种直观的方法是直接组合单一特征得到的显著性图。然而，在单一特征显著性图的推断过程中并没有很好地利用起跨特征信息，因此很难产生准确可靠的结果。在这里，我们提出多任务稀疏追踪MTSP的解决方案，可以看作是LRR模型的多任务推广。MTSP求解下述优化问题：

其中E=[E1,...,EK]是将原始的Ei按列拉成列向量组成，即单一特征情形下的一个矩阵对应此处E总的一列。通过对E的最小化l21范数实现了多特征的无缝融合。也就是说，这里将强制每一列E1,...,EK有一致的稀疏程度，每一列的同一位置或者都大或者都小，如下图所示：

令{E1*,...,EK*}为上面问题的最优解，与单特征情形下类似，图像块Pi的显著性值可以通过下式来求解：

算法优化

该过程跳过，一方面都是一些套路，另一方面我对这些套路并不是很理解，待日后学成再来补充吧！

推广处理从顶向下的先验

标签数据有助于显著性检测。直到现在，MTSP仅考虑了低层次的视觉特征，即没有使用标签数据的自底向上的显著性检测。幸运的是，MTSP能够自然地处理用标签向量表示的自顶向下的先验。在这一章节，我们提出G-MTSP来整合先验，形式化为如下问题：

形式化3

除了特征矩阵X1,...,XK外，假设存在一个标签向量Ω=(π1,...,πN)能大体上对每一个图像块赋一个概率πi.显著性检测的任务就变成使用K个特征矩阵和标签向量Ω来寻求函数S(Pi)的过程。

标签向量Ω可以通过现有的自顶向下的显著性检测或物体检测的算法中求得。为了使用由代表先验的标签向量，我们仅需要对定义在稀疏矩阵E上的l21范数做一个推广，即带权l21范数，定义如下：

加上这个权重是一种很自然的想法。注意权重取值为0-1.在做最小化的时候，权重越大，意味着E(:,i)需要越小。事实上，我们希望权重越大越显著，所以最终的优化问题中变成了1-Ω，Ω越大，1-Ω就越小，最小化问题就允许范数更大，从而更显著：

实验验证结果讨论就不先说了，反正就各种好呗，后期再读再补充吧！如前面所言，该文仅代表我个人看法，可能存在理解不准确之处，有问题可以发邮件至jzwangATbjtuDOTeduDOTcn讨论交流。

阅读全文

0 0