Foreground Estimation Based on Linear Regression Model With Fused Sparsity on Outliers

来源:互联网 发布:三观尽毁的淘宝买家秀 编辑:程序博客网 时间:2024/05/16 10:01

这两天仔细研究的一篇文章,基于融合了异常稀疏约束的线性回归模型对前景进行估计。我认为这篇文章写的非常好,主要有以下三点:

1.语言非常的native,读起来非常的舒服;

2.方法对我来说是比较新颖的,至少我是第一次看到,而且还提到了一些相关的求解优化算法,这是尤其值得学习总结的;

3.对比实验充足,分析合理。

我着重关注后两点,对这篇文章进行一个总结。

简介

简单地说,这篇文章基于线性回归模型提出了一个很好的前景检测方法,方法的创新点主要有以下三点:
1.前景检测问题转化为线性回归模型中异常信号的估计问题。模型从测量噪声中分离出异常信号,且为了估计结果更加地鲁棒对异常施加了融合稀疏约束;
2.通过将问题转化为等价的Fused Lasso问题使得异常估计问题得到了有效的求解;
3.通过合并来自不同向量化的结果将该模型拓展到二维图像领域,并且实验证明了其在前景检测中的有效性。

相关工作

从信号处理的角度实现前景检测的技术近年来得到了十足的关注。这些方法将前景检测视为信号分离问题,一般可以表示成

其中D和F分别表示单独的信号,可以理解为观测信号Y可以分解为前景和背景两部分。信号分离的目的就是从混合信号中分离出具有不同性质的信号,为了解决这个问题,研究者们提出了很多流行的理论和方法。
主成分分析PCA和独立成分分析ICA我不做赘述。按照论文的思路,下面对与我的研究相关的RPCA和GoDec模型做一个简单的陈述总结。
RPCA顾名思义,相比传统的主成分分析更加鲁棒。当在前景检测领域中应用RPCA模型时,我们总是假设观测到的图像可以分解为Y=L+S的形式,其中Y表示把一帧帧的图像列向量化后组成的矩阵,通过求解凸优化问题 s.t. L+S=Y获得L和S分别对应低秩的背景图像和稀疏的前景图像,还有研究者基于此将噪声考虑进来。与之相近的一个模型是GoDec模型,该模型将将一个矩阵分解为三个部分Y=L+S+G,其中G是一个噪声项。该问题通过求解目标函数 s.t. rank(L)<r,card(S)<k,其中r与k需要事先指定。可以发现RPCA和GoDec模型都探索矩阵的低秩和稀疏结构,但二者有本质的不同。PRCA在不考虑秩约束和势约束情形下矩阵Y准确地分解为L和S两项,而对于GoDec模型来说,通过实现给定的秩和势能够用来控制模型的复杂度并且这个方法将矩阵分解为L、S和G三个部分。而且,GoDec能直接控制L的秩和S的势,RPCA只能求解相应的凸问题。RPCA和GoDec相同的问题是对图像帧的批处理(这里可以理解为一组图像列向量化构成最初的Y矩阵),因此限制了它们在实时场景的应用。(我认为作者在这里表述地不是特征的准确,对于本身就有低秩稀疏特性的应用场景,我个人认为是可以满足实时性的基本要求的)

对异常信号有融合稀疏约束的线性回归模型

这一部分首先对基于线性回归模型的前景检测框架做一个简单的介绍。然后,讨论我们改进的稀疏正则化模型。最后,提出对异常信号带有融合稀疏约束的线性回归模型及估计异常的求解优化算法。

线性回归模型用于异常估计

线性回归模型用来刻画解释变量(不知道翻译成这样合不合适,可以粗略理解为线性代数里面的“基”)和因变量之间的关系。一个简单的线性回归模型可以表示为

其中i=1,..,M表示观测的数量,xi是N维的解释变量,yi为因变量(观测信号),w是回归系数向量,N表示模型的阶数,epsilon i表示残差。简洁起见,上述模型可以表示为

在这个框架下,我们可以将前景物体看作是异常,将前景检测看作是异常估计的问题。线性回归模型最本质的目的就是从训练集中通过最小化给定的目标函数来估计系数。比如说,最小二乘模型定义为

不幸的是,最小二乘的判定标准对异常比较敏感。换句话说,这样得到的系数w并不可靠,导致对异常的估计也就不是那么的准确了。这里思考一个问题,为什么说最小二乘法对异常敏感?或者说为什么残差平方和就对异常比较敏感了?
为了使得线性回归抵抗异常更加鲁棒,研究者们提出了不同的对异常信号适应力强的估计方法,比如说著名的M估计,即通过下面的优化损失函数来降低异常信号的影响

其中ρ是一个给定的分值函数去给残差不同的权重。在许多这类估计中,最广泛应用的的是Huber M-estimator,它的定义如下:

其中k是一个常量,经常设置为k=1.345。对这个M估计具体的理论我还没有具体的研究,可以先看看这里是怎么个意思。看上面的ρ函数,当ei绝对值小于等于k的时候,此刻可以理解为残差比较小,ρ(ei)也会非常小;当ei绝对值大于k的时候,此时ρ(ei)实际上是大于1/2*k^2是小于等于1/2*ei^2的。可以发现无论是大于k还是小于k,函数ρ总是返回相对较小元的平方乘以1/2。后期有时间我会把这部分的详细解释添加过来。
当然,除了修改目标函数,我们也可以对上述问题的表示系数进行稀疏约束,也就得到了著名的Lasso问题(Lasso就是最小二乘加一个1范数正则项),定义如下:

需要注意的是,该模型在近几十年来得到了大量的推广泛化并且用来解决各种各样的问题,比如说Group Lasso问题等。在前景检测问题中,沿着该思路有两条技术路线。其一是Dikmen等人提出来的对残差项添加稀疏约束,目标函数定义如下:

该方法用于前景检测中,此时前景被认为是当前帧与图像背景之间的残差,其中图像背景当前序列中一些帧线性组合而成。我们通常假设前景物体是稀疏的,因此可以通过上面的目标函数得到估计系数w,然后前景就可以通过得到。而且,更多的相关知识可以整合到基矩阵X中以获取更鲁棒的结果。此后,该作者通过新的基选择技术改进了他们的模型。需要注意的是,在上面的模型中,我们是假设背景帧是没有噪声的(如果有噪声,残差就失去了意义),这在现实当中并不成立。当图像被噪声污染的时候,上述模型并不能有效地将前景从噪声中分离出来。另一项技术是所谓的自适应AdaDGS动态群组稀疏,它的目标是提高前面的Group Lasso和以一种自适应的方式利用稀疏和群组簇先验知识来进行复原。为了使用AdaDGS技术,稀疏量必须提前知道,而这往往是不现实的,所以作者提供了一个经验性质的解决方案,即预先设定稀疏范围,然后运行AdaDGS直到满足一些条件。由于在前景检测中有多种物体,显然这种方法并不是一种可测的解决方法(该处“可测”理解为形式化、定量化)。而且,如果这个范围设置过大,那么就会导致复杂度较高,我们也注意到他们背景抽取实验中也仅仅试验了少量的动态场景。

对异常信号有融合稀疏约束的线性回归模型

考虑到异常信号与度量噪声往往具有不同的性质,我们提出了鲁棒的线性回归模型显示地从异常信号中将噪声分离出来。模型定义如下:

y,X,w定义域前面的一致,t是异常向量,当观测信号yi是异常时候ti非零。n表示度量噪声,在大多数场景下我们假设n中的元素服从高斯分布,这个模型的目标就是鲁棒地估计出w和t。
需要指出的是,我们提出的模型是适合现实场景中的前景检测的。由于前景物体对于的值(图像灰度值)可以任意大小难以预测,所以前景可以看作模型中的t。相反,当前观测的信号与先前观测信号的背景差相对较小,因此当前的背景可以通过先前几帧的线性组合加上一个小的噪声重构得到。
由于异常信号往往有某些特定的性质,恰当地利用这些性质可以得到更好的结果。启发于前景相对少见且较为稀疏,基于对异常信号带有稀疏约束的线性回归模型我们提出了一个前景估计方法定义如下

p范数表示对异常t的稀疏约束。尽管许多p范数均可以近似0范数,但1范数最常用来松弛0范数得到一个凸优化问题便于求解。基于此,下面我们也采用1范数。
在前景检测中观察到异常往往是局部平滑的相似的像素倾向于聚在一起,因此我们拓展上面的LR-SO模型得到对异常有融合稀疏约束的线性回归模型(p.s.我不知道翻译成融合是否合适,这里的融合可以理解为双重稀疏约束,不仅要求系数自身稀疏,而且要求相邻系数差也稀疏,从而平滑),模型定义如下

其中t'的定义为,我们把称为融合稀疏约束,t'的稀疏将激励得到局部平滑的解。
与前面的LR-SO模型相比,LR-FSO模型增加了一个相邻系数差的稀疏约束,以此来减弱零散异常的影响。而且较LR-SO相比我们的模型求解中采取了自适应的参数估计技术。LR-SO与LR-FSO均是基于线性回归模型估计异常,后者可以看成前者的一个推广。

LR-FSO模型的有效求解

我们提出的LR-FSO模型可以看作是Fused-Lasso问题的延伸,除了变量t之外还要估计w。许多现有的技术都可以用来求解该模型。比如可以采用交替求解,即固定一个变量最小化目标函数,然后固定另一个变量最小化目标函数,以此交替进行求解。在我们的前景检测任务中,我们关心的是异常信号t,启发与Candes和Tao我们也构建一个中间矩阵来消除w的影响,估计模型就变为

这个地方我还不是特别的理解,后期会进行相关的补充说明。其中,IM是M阶的单位矩阵,X+表示X的广义逆矩阵。根据上面的模型可以直接求得t的一个估计值。(怎么求?原理怎么解释?涉及到哪些优化的知识?后续我读了相关的论文有了更深的理解会继续更新此文)这里面还涉及到两个参数λ1,2的选取问题不再赘述。

提出的前景检测方法

方便理解,先铺垫一个小trick。在处理图像的时候,很多情况下都是将图像对应的矩阵列向量化。啥叫列向量化?比如说一个图像对应的灰度矩阵是A=【1 2 3;4 5 6;7 8 9】是一个3*3的矩阵,列向量化之后的结果是A'=【1 2 3 4 5 6 7 8 9】变成了一个9行1列的向量。如果连续多帧相似图像列向量化后得到的A',B',C'等等再重新组成一个矩阵FINAL=【A',B',C'】,这个矩阵有时具有低秩的性质。这是视频处理当中一个常用的手段。
根据前面的分析提出的前景检测框架如下:
1.选取之前的N帧图像,将每一帧图像转化为一个列向量,然后将所有的列向量组合成一个新的矩阵X;
2.计算矩阵X的广义逆矩阵;
3.将待测的新一帧图像转化为列向量y,计算模型中需要的参数;
4.根据我们提出的模型解得异常向量t;
5.设定阈值Th根据Th分割t并将其转化为二值图像(其实这里解得的还是一个向量t,再转化为矩阵的形式,然后再二值分割)
6.根据前面提到的普通的线性回归模型分别施行列向量化、行向量化做异常估计,将得到的两个结果做逻辑或操作获取最终的试验结果(我不知道论文里为什么会有这一步,设计对比实验?算法流程图里没有这一步骤!不知道目的是什么!
算法流程图如下:


实验

实验结果没什么好说的,无非是拿各种数据集进行测试,这里涉及到一些评价指标的选取问题,在某些指标下说明自己设计的算法比其他人的算法更牛更好。实验结果不贴图了。

结论

这篇文章提出了一个新的前景检测的框架,在这个框架下前景检测被认为是最小二乘模型下异常信号估计的问题。注意到前景物体通常是稀疏且有群组效应,提出了融合稀疏约束以获得更鲁棒的估计结果,然后对所提出的模型同时给出了有效的求解算法。实验结果证明了该模型的有效性。

有关模型求解的一些细节会在近期随着相关文献的阅读而不断更新,有问题可以发邮件至 jzwang@bjtu.edu.cn 讨论交流。
0 0