（转）图像理解（1）

来源：互联网发布：react.js介绍编辑：程序博客网时间：2024/06/05 13:35

1.没有图像的理解，就不要谈目标的检测、分类和识别。理解才是硬道理；

2.不在于图像理解模型是否与人类的认知过程一致，关键是要有效；

3.图像是最自然的自然语言，图像理解可以借鉴自然语言处理中的方法。

引言

从CVPR、ICCV、ECCV、IJCV、PAMI、JOV等国际会议和期刊中，我们可以看出目前关于目标检测（如车辆检测、人脸检测和行人检测等）、目标识别（如人脸识别）、目标分类、场景理解等的文献非常多。面对如此多的文献，我晕，我倒。敢问“CV”路在何方。为了不让自己在如此多的文献中迷失了方向，本文结合我的研究方向（图像理解）在文献堆中杀出一条“血路”，梳理出一条主线。

从计算机信息处理的角度来看，个人认为一个完整的图像理解系统可以分为以下的四个层次：数据层、描述层、认知层和应用层（注：此分层方法类似于Selfridge（谢夫里奇）于1959年提出的小妖模型（Pandemonium Model）。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型，而本文是从信息处理的角度提出的一个图像理解系统分层框架；其次二者每层的任务也是不一样的）。各层的功能如下：

数据层：获取图像数据，这里的图像可以是二值图、灰度图、彩色的和深度图等，本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如：平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。

描述层：提取特征，度量特征之间的相似性（即距离）；采用的技术有子空间方法(Subspace)如：ISA,ICA,PCA，。该层的主要任务就是将象素表示符号化（形式化）。

认知层：图像理解，即学习和推理（Learning and Inference）；该层是图像理解系统的“发动机”。该层非常复杂，涉及面很广，正确的认知（理解）必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。

应用层：根据任务需求（分类、识别、检测）（ps：如果是视频理解，还包括跟踪），设计相应的分类器、学习算法等。

图像理解的潜在应用包括：

1。智能视觉监控：

2. 图像检索

3. 图像补充

4.图像和文本之间的相互转换

（1)Image2Text（I2T）：将图像翻译成文本，不仅要描述出图像中的物体，而且要概括出这些物体的组合所表达的中心思想。从这个意义上，可以把这个应用称为“图像摘要”（Image Abstract，IA）。

(2) Text2Image（T2I）：将文本转化为图像。具体的应用如：

a）根据用户输入的一段文字，让电脑自动为其配图，让电脑自动为你用图解释图片（auto-illustration）；

b）让电脑根据歌词自动制作MTV。

图像和文本之间的相互转换涉及到图像的场景识别与理解、目标的检测和识别、图像融合等，可以说是图像理解中最具挑战性的和最具趣味性的研究课题。

如果这个转换研究成功的话，那么电脑就具有“看图说话”、“看书作图”的能力。注意这里的文本，可以是现代文、歌词、唐诗、宋词等，也可以是音乐、歌谱、声音等等。

太佩服自己了，竟然总结出如此的应用。哈哈。

本文的后续部分是文章的阅读笔记，每篇文章将按照上述的四个层次进行总结。

1.[Torralba, PAMI07] 80 million tiny images: a large dataset for non-parametric object and scene recognition

【关于作者】

MIT的Associate Professor,主要的研究方向是场景识别和目标识别（scene and object recognition）.目前的研究中通常将目标识别和场景识别分开研究，作者希望搭建一个融合这个识别任务的系统。其代表作有：LableMe、80million images、Gist和Shareing features等。A. Torralba是Scene Understanding Symposium（SUnS）的主要组织者和参与者，其个人主页：http://web.mit.edu/torralba/www/.

【文章摘要】

“模型+数据库”是计算机视觉中目标和场景识别重点研究的两个方面。但从目前的文献来看，大部分的研究集中在如何构建一个更好的模型，对数据集的关注相对较少。本文作者眼光独到，从建造一个大规模的数据库入手，告诉我们：如果数据库大了，做什么都好办。

作者利用关键字搜索在一些著名的搜索引擎上收集图片，经过8个月的努力，最终收集整理了79302017张图片（32*32），每张图片对应一个单词（即，一个语义标注），用到的名词共有75062个。整个数据库不压缩的话要占用750G的硬盘空间，规模之大实在是空前的。

由于标注中存在中噪音，文中作者借助wordnet进行消除。基于如此庞大的数据库，作者向我们展示了如何利用它和wordnet voting scheme进行人体检测（person detection）、人体定位（person localization）、场景识别（scene recognition）、自动图像标注（automatic image annotation）及图像着色（Image Colorization）等有趣的应用。文中所采用的方法，但是很有效，这主要归功于作者所建立的数据库。“林子大了，什么鸟多有”。在80 million这样的数据库中，找两张相似度较高的图片概率是很大的，因此目标的检测和识别也就变得更加容易了。

更多关于此数据库的信息参见http://people.csail.mit.edu/torralba/tinyimages/。

在四层模型中，可以将其划入认知层中，因为数据库的建立是认知层的一个任务。

2 [Russell, 2008] LabelMe: a database and web-based tool for image annotation

【关于作者】

【文章摘要】

在图像标注的研究中，目前还没有一个通用的数据库。因为将一张图片（或者视频中的某一帧）中出现的每个目标都赋予一个语义标签（semantical label ）是一件非常费时费力的事情。本文作者介绍了他们设计开发的一套基于网络的图像标注工具---LabelMe。该工具方便易用，可以工作在不同的平台中，标注后的结果存储在xml文件中，易于使用和扩展。所有参与标注的人员可以共享此标注数据库，随着时间的推移和参与人数的增加，数据库的规模和质量在不断的提高。

文中作者还指出了：（1）利用WordNet来提高标注的质量，解决对于同一物体不同用户的命名不同的，即同义词问题；（2）解决重叠区域（overlap area）的方法；（3）利用LabelMe，实现半自动标注(semi-automatic labeling)。最后，作者从类别数（#categories）、图像数（#images）、标注数目（#annotations）及标注的类型（annotation type）四个方面将比较了LableMe数据库与Caltech-101、MSRC、CBCL-Streetscenes和Pascal2006作比较。

本文重点关注的是图像标注中训练数据库的搭建，在图像理解的四层模型中可以将它划分到认知层。

3. Scene Categorization from Tiny Images

【关于作者】

Andreas Wendel是奥地利格拉茨大学本科生，其导师Axel Pinz。A. Pinz写了一篇相当不错的综述性文章《Object Categorization》(Foundations and Trends in Computer Graphics and Vision, 2005)。

【文章摘要】

自从A. Torralba提出tiny images后，很多研究者开始从事这方面的研究。本文通过实验说明：（1）对于场景分类来说，32*32的分辨率已经足够；（2）当图片的分辨率很小时，颜色是场景分类中的一个重要信息。文章作者所采用的特征（区域直方图）和分类方法（knn）都相当简单，但是却取得了46%的识别率。

本文作者采用的图像特征虽然简单，但是其思想相当不错。作者通过归一化图像块(8*8)的直方图，并计算其熵，用熵的平方作为该图像块的权值；然后将图像快划分为left, right, top, bottom, center五个区域，将其相应的图像块直方图累加起来。这种带权值的区域直方图思想值得借鉴，因为该方法能在一定程度上反应出图像的空间位置关系。

本文重点要传递的思想是：利用tiny images进行场景的分类是一个有趣的、有效的方法。在图像理解的四层模型中，本文所描述的区域直方图属于表示层。

作者在文章的最后对有关tiny images的研究进行了展望：

“…, one could use tiny images as detector for salient points. It would be possible to divide an image into a set of tiny images, which are then classified into predefined keypoint categories. If the tiny image is not rejected, it can be assigned to a class of keypoints and therefore describes the image with quite accurate localization. As a result, individual salient points – unrelated to edges or gradients – could be defined.”

4. Self-taught Learning: Transfer Learning from Unlabelled Data

【关于作者】

R. Raina（homepage：http://www.stanford.edu/~rajatr/）师从Andrew Y. Ng，在斯坦福大学AI Lab学习。研究方向是机器学习及其应用，目前主要研究是借鉴神经科学的非监督（Unsupervised）学习算法。

【文章摘要】

“Self-taught Learning”，自己教自己学习的学习？香港科技大学杨强教授将其翻译成“无师自通”，相当准确传神。

本文提出的“无师自通”迁移学习方法是一种新的机器学习框架。它不同于传统的监督学习（Supervised Learning）、无监督学习和增强学习（Reinforcement Learning，或者称为“Learning with a critic”---基于评价的学习），该方法通过从未标记数据样本（Unlabeled Data）中学习到一个紧凑的、有效的表示（Representation）（即，从未标记样本中学习一个较高层次的特征表示方法），然后将学习到的特征表示方法应用到监督学习任务中。“无师自通”学习方法不仅利用到了Labeled Data，也用到了Unlabeled Data，所以它既不是监督学习，也不是非监督学习，而是一种半监督学习（Semi-supervised Learning，关于半监督学习的综述参见[Zhu, 2008] Semi-supervised Learning Literature Survey）。

Self-taught Learning究竟迁移什么东西呢？它将从未标签数据样本中学到的数据表示方法（可以看成知识）迁移到带标签的数据样本中。该方法本质上可以看成是一种特征空间的变换，或者说“维数约减”（注：其实，维数约减说法比较不确切，因为诸如PCA之类的维数约减方法变换之后的维数通常比原来的维数少，但是本文的特征空间变换采用Sparse Coding，变换后的维数可以比原来的维数大）。目前关于半监督学习的方法很多，而Self-taught Learning的独特之处在于它不要求未标记的数据样本和已标记的数据样本（1）标记集一样；（2）二者独立同分布（iid）。

本文提出的“Self-taught Learning”算法可以归纳为求解两个优化问题。

1．通过Sparse Coding方法求解未标记数据样本集的“基元”（basic elements）。注意：（1）基元的个数可以大于未标记样本的维数；（2）基元集不要求是正交集。这两点是Sparse Coding和PCA方法的显著区别。该优化问题的直观解释就是寻找一组基，使得在该基下，重构误差和重构系数尽可能地小。

2．求解完第一个优化问题后，获得了一组基。接下来要做的就是求已标记的样本集在这组基下的系数，文中将这个过程建模为一个优化问题特征向量，即在基下的“最优”系数。

最后，作者通过图像分类、手写体识别和文本分类等应用，验证了“无师自通”这种半监督学习方法的有效性。作者还指出了一个具有重要的理论价值的研究：未标记样本集和已标记样本集之间的相似性是如何影响到Self-taught Learning算法的性能。

在图像理解的四层模型中，本文提出的Self-taught Learning旨在通过未标记样本集学习到一个比较有效的特征表示方法，并将该方法迁移到已标记的样本集中，因此可以将其归类到表示层。

[5] Automatic Semantic Annotation of Real-World Web Images

【关于作者】

R. C. F. Wong, 研究的主要方向是图像的语义检索、统计视觉计算等。

【文章摘要】

在拍摄不同场景的图片时，拍摄者一般会选择不同的图像获取参数（image acquisition parameters）。如拍摄风景画是，为了尽量能把所看到的景物都拍摄下来，一般会将光圈调小，物距较长；拍人物肖像的时候，一般物距较小；拍体育图片的时候，一般采用长焦距镜头、快门等。因此根据拍摄时摄像机的参数（aperture---孔径、exposure time---曝光时间、subject distance---物距、focal length---焦距、fire activation---闪光？），可以确定以一幅图片的类别。文中采用决策树判别方法学习到10条规则对图像进行场景分类。

本文虽然能对Web上的图像进行自动的语义标注，但是每一幅图像只有一个类别的标签，且类别的数目有限，因此这种标注方式对图像的描述能力十分有限。文中虽然提出了将图像的拍摄参数和底层信息（颜色特征、纹理特征和形状特征）相结合的自动语义标注系统，但是没有给出具体的实现方案和实验结果。

本文最大的贡献在于提出了利用物理层的信息（图像拍摄参数）对图片进行语义标注。在图像理解的四层模型中，可将“基于图像获取参数的语义标注”划分到表示层中。

[6] Real-Time Computerized Annotation of Pictures

【作者】

Jia Li(http://www.stat.psu.edu/~jiali/),女，中国人，Stanford博士毕业，现在PSU，与James Z. Wang(http://wang.ist.psu.edu/docs/home.shtml)同事。主要研究方向是统计学习及其在计算机视觉中的应用（如Image Annotation, Image Retrieval等），代表性研究成果Automatic Linguistic Indexing of Picture – Real Time: ALIPR（http://alipr.com）。

【文章摘要】

现有的图像搜索引擎如Google, MSN等，主要依据图片所在网页中的文字信息。通过这种方式对图片进行标注，存在着大量的噪声。对图片进行分类/标注，是语义图像检索中的一个关键步骤，也是计算机视觉中的难点和前沿问题。

本文和大多数文章一样，将图像的标注问题看成是一个分类问题。因此贯穿这篇文章的主线就是“特征提取– 特征选择（变换） -聚类 – 建立模型（分类器）”。在特征提取阶段，作者提出了一种新的特征表示方法，这种特征综合了颜色和纹理信息，同时记录了各个信息的分布情况（概率）。由于这种表示方法不是定长，因此作者提出了一个相应的聚类算法（类似于K-Means）：Discrete Distribution Clustering。相似性度量采用Mallows Distance。通过聚类获得了一些表示概念（语义标签）的prototype（用质心表示），通过计算每张图像到质心的距离，利用距离建立起质心所在区域的模型。最后将这些模型这些加权来表示某一语义标签。

本文的解决问题的思路与Kah-Kay Sung的《Example-Based Learning for View-Based Human Face Detection》极其相像。在图像理解的四层模型中，作者的主要贡献在于表示层。同时本文提出的标注方法效率高，达到了实时。

在文章的展望部分作者提出了：1。加入3D信息和形状信息以提高模型的准确性；2。建立更大规模的数据库；3。充分利用上下文信息。个人认为通过加入3D信息以提高模型的准确性持怀疑态度。对于网络上的大量图片，一般都是没有什么联系的，通过单张图片获取3D信息这本身就是一个难题。再者，3D信息对于目标识别来说非常重要，但是对于图像的语义标注来说，指导意义不大。