Max-Margin Boltzmann Machines for Object Segmentation的文章解读

来源:互联网 发布:淘宝历史最低价怎么算 编辑:程序博客网 时间:2024/05/18 08:17

1.Max-Margin Boltzmann Machines for Object Segmentation的文章阅读

该模型的代码开源(作者提供了MATLAB的代码和数据集)

     摘要:本文针对物体分割提出了最大边界的玻尔兹曼机,它作为模型化隐层变量和对于输入观测的输出标签的联合分布的条件玻尔兹曼机的一个主要算法之一。除了图想到标签的连接,我们也建立了图想到隐层的链接来促进全局形状预测,从而得出一个简单迭代条件模型算法,以为后验概率推断提供效率。同时,我们为判别训练建立了最大边界目标函数,并且在学习过程过程中分析了不同边界函数的影响;最后本文在三种数据集上对提出的算法作了评估。

2介绍

       本文提出了针对普适类的条件玻尔兹曼机的对象分割模型,本文模型除了从图像到标签的连接,也包含从图像到隐层变量的连接,这个好处是允许我们从图像特征直接进行形状推断;同时我们也推导出适用于最大后验推断的高效迭代式条件模型。

       针对CRFCBM模型面对指数级输出组合的问题,近似学习算法易陷入局部最优解;而我们提出的给予最大边界的CBM能够高效地解决这个问题

       相比已提出的最大边界的玻尔兹曼机主要针对理论的研究,我们提出的方法主要在于图像分割上的应用;同时和基于超像素CRF和基于高阶模式的方法在三种数据集上进行对比分析。

 

2相关的工作

       这里首先对现有的方法作了分析,然后指出在上述的提到的方法,在图像特征和隐变量之间的唯一的推理路径推进将标签分配给图像像素,然而却将这个形状仅仅使其作为先验信息起作用,因此这个形状信息没有被完全开发研究。相反,我们的MMBM介绍了隐变量和图像特征间的连接,这种做法使得MAP推断程序更加高效,从而有助于最大边界学习。

3模型

     首先,在这里介绍了两种玻尔兹曼机的变体,RBMsShapeBM为模型化对象形状;其次描述了本文提出的条件模型和最大后延推断算法。

3.1玻尔兹曼机

     给定一个对象有标签的图像,我们能够将mast表示为可见变量y属于{0,1}的集合;RBMs使用隐层变量h{0,1}n)的一层去捕获可见变量之间的全局依赖性:

如图1(a)所示:

RBMs在可见层和隐含层之间没有横向的连接,因此能量函数可以采用下式实现:

                         

RBM的一个优良特性是:在给定隐层变量的情况下,可见变量条件独立的;反之,在给定可见变量的情况下,隐层变量也是条件独立的;隐层和可见层的变量的条件概率可以通过公式34来表示。

RBM在模型化复杂分布的条件是,有大量的训练样本和隐层变量

上述主要描述了ShapeBM的结构,其中第一隐含层被划分为若干不相邻的子集,子集中的每个部分只和对象掩模的局部图像块连接(既含有局部感受野),同时不同图像块能够共享权重(既含有权重共享),这个优点能够大幅度减少参数变量;而第二层隐变量和第一层隐变量全连接;

由于第一隐含层连接的是可见变脸层的局部图像块,因此,可将第一隐层变量集合的每部分变量放在一个大的权重矩阵W中,从而改写为公式6

这里主要描述了:

a.ShapeBM相比两层的条件RBM的优点

b.ShapeBM结构中第一二隐含层的权重和作用

c.这个模型的缺点

3.2条件玻尔兹曼机

       这里RBMsShapeBMs有自身的缺点,不能高效的从图像去推断对象的二值掩模(物体的分割);因此,提出可以构建p(x,y)的全生成模型;现有文献提出了基于对象图像和分割部分图像的生成多项式联合模型。

 构建基于对象图像和形状掩模的难点,同时提出解决这个问题的MMBM1

MMBM2模型;

在这两个模型中引入了几个很重要的关键变量x0(低层次的图像特征);

x1(带分割目标的部分的特征);V1是目标部分的模板;x2(描述了对象的整体特征)V2则由不同姿态和视角的对象模板组成;这个模型的特点就是将观察图像x连接到隐含层和可见层,这个优点就是此时我们能够直接从图像特征来推断对象的形状(即分割对象)。

        

这里给出这两个模型的图,从图可以对该模型有个直观的理解;图d中同一颜色部分相连接。

3.3 MAP推断

按原文理解:给定图像特征xy最可能的评估可由9式表示:

          

这里主要提出对单层和双隐含层的MMBM的模型求解;对于单隐含层由于边界分布能够用自由能量来表示,因此对于9式的求解可以转化为求解11式,然后采用梯度的方式来寻找最优的y;但是对于双隐含层的MMBM,由于其自由能量不能表述,因此使用EM算法去求解log似然函数log(p(y|x))如果上述的条件分布不是单峰的,则可由12式来代替;

针对条件分布独立的特性,对于单隐含层的MMBMs,本文提出采用高效的迭代条件模型ICM去求解;

4.学习

这里对于MMBM的学习给出训练样本{(xn,yn)},单层和双隐含层的MMBM的模型和模型参数;同时阐述MMBM模型由独立图像和依赖图像等两部分组成,进一步说明MMBM学习的步骤(首先通过生成预训练来初始化图像独立部分,然后将问题重新表述为最大边界优化问题,这个问题进一步采用CCCP算法来求解)。

自我理解:首先采用预训练初步分割对象,然后采用图像像素间依赖去细化边界部分;

4.1预训练

a.生成的预训练的p(y,H)提供了输出和隐含层变量间合适的正则化;并且促进隐含层变量去在后续步骤中的判别学习

b.如果省略掉图像依赖相关部分,则单层的MMBM退化为RBM,而双隐含层的MMBM退化为ShapeBM,此时前面用于解决该模型的问题,可以适用于MMBM模型

c.事实上,BM一般的训练步骤要求去最小化数据依赖和模型依赖间的期望,训练RBM则最小化模型和数据间的对比差异,而对于ShapeBM的每层则通过贪婪地学习方式进行

4.2最大边界学习

a.对于图像中实例i的预测,对应的标签yi可用14式来求解表示,进一步通过省略两边的分区函数Z14式可以采用能量的约束形式15式来表示;对于公式15的模型解释,左边描述了数据依赖能量,而右边描述了模型依赖能量。此时,遇到的一个难题是:该模型的约束是指数数量级的?对应我们通过16式来寻找隐含层的变量Hi*能够在数据依赖能量中最好地解释实例(xi,yi)

b.对于模型依赖能量,通过增加能量边界来计算最优的预测,正如公式17表述的那样。此时对于公式1617的编码问题都能够通过ICM算法高效地求解,只是在随机初始化的是H

a.为了处理图像的噪声,通过在模型中引入松弛变量来松弛边界约束;

此时,对MMBM学习重新采用最大边界目标函数的形式重新表述为18式;同时,此时18式等价于求解19式中的最优化问题;

b.对于公式19的求解,通过推导SGD算法去求解这个模型,对于模型的参数部分作了较详细地说明

c.为了求解公式19,首先采用预训练的参数初始化参数w0,同时提出了解决这个问题的随机梯度算法来处理优化问题;

边界函数的对比

本文强调选择一个适合的边界罚函数对于MMBM高效地学习是至关重要的;这里以单层MMBM为例,从该模型的能量函数可以发现,该能量函数由三部分组成H-V/H-I/V-I,它们则分别对应MMBM图模型中三种边界;

鉴于此,我们分析四种边界函数的选择同时实验评估它们的性能;

这里我们对每种边界函数选择带来的效果进行分析

case1的缺点:可能只较强地优化了H-V,H-IV-I没有得到很好的优化

case2we may obtain strong H-V and V-I components but a weak H-I component.

case3:使V-I没有得到优化

case4:. Since ∆(y, yi) and ∆(H, Hi) are absorbed into the V-I component and H-I component, respec-

tively, all three components are optimized during learning.

5实验

5.1数据集

Penn-Fudan Pedestrians行人数据集:

为了增加训练样本,将图像块进行镜像,然后随机分裂为训练和测试样本,但是,一对镜像图像块必须在一组中;

马的数据集:

鸟类数据集;

对数据集作了人工精细分割;

5.2实现

框架:

主要说明了网络的结构设置和如何处理输入图像与标签送入模型进行训练

特征:

这里对于可见层(x0/第一隐含层(x1)/第二隐含层(x2)分别提取图像不同的特征送入对应的层中;\

训练

该模型的代码开源(作者提供了MATLAB的代码和数据集)

结果

涉及对比实验

6结论

作者在结论部分,主要阐述了本文工作:

a.建立了从图像观察变量到隐含层变量的连接

b.提出了简单高效地ICM算法用于MAP推断

c.采用最大边界函数公式化MMBM模型

最后作者展望部分:

a.后续加入

b.MMBM分割中集成对象检测的功能

原创粉丝点击