文献阅读记录1

来源:互联网 发布:新手做微商好还是淘宝 编辑:程序博客网 时间:2024/05/22 10:57

文献《图像物体分类与检测算法综述》2013黄凯奇、任伟强、谭铁牛


中文名词收集:

非刚体形变


物体分类任务要求回答一张图像中是否包含某种物体,

对图像进行特征描述是物体分类的主要研究内容。

一般来说,物体分类算法通过 手工特征 或者 特征学习方法

对整个图像进行全局描述,

然后使用分类器判断是否存在某类物体。

典型的学习特征表达:词包模型(Bags-of-Words),深度学习模型


物体检测任务需要回答一张图像中在什么位置存在一个什么物体。

因而除特征表达外,物体结构是物体检测任务不同于物体分类的最重要之处。

物体检测方法侧重于结构学习,以形变部件模型为代表。



基于词包模型的物体分类:


底层特征提取:

基于兴趣点检测:通过 某种准则 选择具有明确定义的、局部纹理特征比较明显的像素点、边缘、角点、区块等,

并且通常能够获得一定的几何不变性,从而可以在较小的开销下得到更有意义的表达。


密集提取(近年来用的更多):从图像中按照 固定的步长、尺度 提取出 大量的局部特征描述,

大量的局部描述尽管具有更高的冗余度,但信息更加丰富,

后面再使用词包模型进行有效表达后通常可以得到比兴趣点检测更好的性能。

常用的局部特征包括 SIFT(Scale-Invariant Feature Transform,尺度不变特征转换)、

HOG(Histogram of Oriented Gradient,方向梯度直方图)、

LBP(Local Binary Pattern,局部二值模式)



特征编码:

密集提取的底层特征包含大量冗余与噪声,使用一种 特征变换算法 对底层特征进行编码,

从而获得更具区分性、更加鲁棒性的特征表达。

对物体识别性能具有至关作用的用,大量研究工作集中在寻找更强大的特征编码方法。


重要的特征编码算法:

向量量化编码(硬量化编码)

核词典编码(软量化编码)

稀疏编码

局部线性约束编码

显著性编码

Fisher向量编码

超向量编码


向量量化编码(硬量化编码):最简单的特征编码。使用一个较小的特征集合(视觉词典)对底层特征进行描述,达到特征压缩的目的。

向量量化编码只在最近的视觉单词上响应为1,因此又称 硬量化编码、硬投票编码,

(缺点)这意味着向量量化编码只能对局部特征进行很粗糙的重构。

(优点)但编码思想简单、直观,比较容易高效实现,得到了广泛使用。

(存在问题)图像局部特征常常存在一定的模糊性,一个局部特征可能和多个视觉单词差别很小。

这时候若使用向量量化编码,将只利用距离最近的视觉单词,而忽略了其他相似性很高的视觉单词。


软量化编码(核词典编码):局部特征不再使用一个视觉单词描述,而是距离最近的K个视觉单词加权后进行描述

有效解决了视觉单词的模糊性问题,提高了物体识别精度。


稀疏编码:通过 最小二乘重构 加入 稀疏约束 来实现在一个 过完备基上 响应的稀疏性。

(内在原理)对于一个很大的特征集合(视觉词典),一个物体通常只和其中较少特征有关。

例如自行车通常和表达 车轮、车把 等部分的视觉单词密切相关,而与飞机机翼、电视屏幕等关系很小。

(存在问题)相似的局部特征可能经过稀疏编码后再不同的视觉单词上产生响应,

这种变换的不连续性必然会产生编码后特征的不匹配,影响特征的区分性能。


局部线性约束编码:通过加入局部线性约束,在一个局部流形上对底层特征进行编码重构,

这样既可以保证得到的特征编码不会有稀疏编码存在的不连续性问题,也保证了稀疏编码的特征稀疏性。

局部性是局部线性编码中的一个核心思想,通过引入局部性,一定程度上改善了特征编码过程的连续性问题,

距离相近的局部特征在经过编码之后应该依然能够在一个局部流形上

(名词释义)流形(manifold):流形学习(manifold learning)是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。

它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。

流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。

流形学习的目的是将其映射回低维空间中,揭示其本质。(来自知乎 Jason Gu)


显著性编码:引入了视觉显著性的概念,如果一个局部特征带最近和次近的视觉单词的距离差别很小,

则认为这个局部特征不是“显著的”,从而编码后的响应也很小。

Huang等人发现,显著性表达配合最大值汇聚在特征编码中有重要作用。


超向量编码、Fisher编码是近年提出的性能最好的特征编码方法,基本思想有相似之处,

都可以认为是编码局部特征和视觉单词的差。

这种特征编码方式得到的特征向量表达通常是 传统基于重构编码方法的M倍(M是局部特征的维度),

尽管如此,两者在PASCAL VOC、ImageNet等极具挑战性、大尺度数据库上获得了当时最好的性能。


Fisher向量编码:同时融合了产生式模型和判别式模型的能力,与传统的基于重构的特征编码方法不同,

它记录了局部特征与视觉单词之间的一阶差分和二阶差分。


超向量编码:直接使用 局部特征与最近的视觉单词的差 来替换之前简单的硬投票。



特征汇聚:

空间特征汇聚是指在特征编码后进行的特征集整合操作,通过对编码后的特征,每一维都取其 最大值或平均值,

得到一个紧致的特征向量作为图像的特征表达。

这一步得到的图像表达可以获得一定的 特征不变性,同时避免了使用 特征集进行图像表达的高额代价

最大值汇聚在绝大部分情况下性能优于平均值汇聚。


空间金字塔匹配(Spatial Pyramid Matching,SPM):提出将图像均匀分块,然后每个区块里面单独做特征汇聚,

并将所有特征向量拼接起来作为图像最终的特征表达。

操作简单且性能提升明显,成为当前基于词包模型的图像分类框架中的标准步骤。



分类器:

常用的分类器:支持向量机、K紧邻、神经网络、随机森林

基于最大化边界的支持向量机是使用最广泛的分类器之一。

随着处理数据规模的增大,基于在线学习的线性分类器成为首选。





作者基于历年PASCAL VOC竞赛对于各种图像分类与检测方法进行介绍,

在图像分类竞赛中,2005-2012年的队伍应用的大多数是词包模型,

在图像检测中,2005-2012年的队伍应用的大多数是以形变部件模型(2007年提出)为基础。

强调了 表达学习结构学习分别在物体分类和检测中的重要意义。


在文章中,对于深度学习方法,作者只是简单介绍了深度学习方法的几种模型,以及深度学习的局限性。

提出了将显式结构先验嵌入到深度学习模型中,可以有效降低网络参数空间的规模,减少局部极值的问题,从而可以更加有效解决检测、分割等任务。



2017.1.11逸夫楼图书馆





0 0