(转)图像理解(1)
来源:互联网 发布:react.js介绍 编辑:程序博客网 时间:2024/06/05 13:35
1.没有图像的理解,就不要谈目标的检测、分类和识别。理解才是硬道理;
引言
从计算机信息处理的角度来看,个人认为一个完整的图像理解系统可以分为以下的四个层次:数据层、描述层、认知层和应用层(注:此分层方法类似于Selfridge(谢夫里奇)于1959年提出的小妖模型(Pandemonium Model)。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型,而本文是从信息处理的角度提出的一个图像理解系统分层框架;其次二者每层的任务也是不一样的)。各层的功能如下:
数据层:获取图像数据,这里的图像可以是二值图、灰度图、彩色的和深度图等,本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如:平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。
描述层:提取特征,度量特征之间的相似性(即距离); 采用的技术有子空间方法(Subspace)如:ISA,ICA,PCA, 。该层的主要任务就是将象素表示符号化(形式化)。
认知层:图像理解,即学习和推理(Learning and Inference);该层是图像理解系统的“发动机”。该层非常复杂,涉及面很广,正确的认知(理解)必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。
应用层:根据任务需求(分类、识别、检测)(ps:如果是视频理解,还包括跟踪),设计相应的分类器、学习算法等。
图像理解的潜在应用包括:
1。智能视觉监控:
2. 图像检索
3. 图像补充
本文的后续部分是文章的阅读笔记,每篇文章将按照上述的四个层次进行总结。
1.[Torralba, PAMI07] 80 million tiny images: a large dataset for non-parametric object and scene recognition
“模型+数据库”是计算机视觉中目标和场景识别重点研究的两个方面。但从目前的文献来看,大部分的研究集中在如何构建一个更好的模型,对数据集的关注相对较少。本文作者眼光独到,从建造一个大规模的数据库入手,告诉我们:如果数据库大了,做什么都好办。
作者利用关键字搜索在一些著名的搜索引擎上收集图片,经过8个月的努力,最终收集整理了79302017张图片(32*32),每张图片对应一个单词(即,一个语义标注),用到的名词共有75062个。整个数据库不压缩的话要占用750G的硬盘空间,规模之大实在是空前的。
2 [Russell, 2008] LabelMe: a database and web-based tool for image annotation
3. Scene Categorization from Tiny Images
【文章摘要】
自从A. Torralba提出tiny images后,很多研究者开始从事这方面的研究。本文通过实验说明:(1)对于场景分类来说,32*32的分辨率已经足够;(2)当图片的分辨率很小时,颜色是场景分类中的一个重要信息。文章作者所采用的特征(区域直方图)和分类方法(knn)都相当简单,但是却取得了46%的识别率。
本文作者采用的图像特征虽然简单,但是其思想相当不错。作者通过归一化图像块(8*8)的直方图,并计算其熵,用熵的平方作为该图像块的权值;然后将图像快划分为left, right, top, bottom, center五个区域,将其相应的图像块直方图累加起来。这种带权值的区域直方图思想值得借鉴,因为该方法能在一定程度上反应出图像的空间位置关系。
本文重点要传递的思想是:利用tiny images进行场景的分类是一个有趣的、有效的方法。在图像理解的四层模型中,本文所描述的区域直方图属于表示层。
作者在文章的最后对有关tiny images的研究进行了展望:
“…, one could use tiny images as detector for salient points. It would be possible to divide an image into a set of tiny images, which are then classified into predefined keypoint categories. If the tiny image is not rejected, it can be assigned to a class of keypoints and therefore describes the image with quite accurate localization. As a result, individual salient points – unrelated to edges or gradients – could be defined.”
4. Self-taught Learning: Transfer Learning from Unlabelled Data
【关于作者】
【文章摘要】
本文提出的“无师自通”迁移学习方法是一种新的机器学习框架。它不同于传统的监督学习(Supervised Learning)、无监督学习和增强学习(Reinforcement Learning,或者称为“Learning with a critic”---基于评价的学习),该方法通过从未标记数据样本(Unlabeled Data)中学习到一个紧凑的、有效的表示(Representation)(即,从未标记样本中学习一个较高层次的特征表示方法),然后将学习到的特征表示方法应用到监督学习任务中。“无师自通”学习方法不仅利用到了Labeled Data,也用到了Unlabeled Data,所以它既不是监督学习,也不是非监督学习,而是一种半监督学习(Semi-supervised Learning,关于半监督学习的综述参见[Zhu, 2008] Semi-supervised Learning Literature Survey)。
Self-taught Learning究竟迁移什么东西呢?它将从未标签数据样本中学到的数据表示方法(可以看成知识)迁移到带标签的数据样本中。该方法本质上可以看成是一种特征空间的变换,或者说“维数约减”(注:其实,维数约减说法比较不确切,因为诸如PCA之类的维数约减方法变换之后的维数通常比原来的维数少,但是本文的特征空间变换采用Sparse Coding,变换后的维数可以比原来的维数大)。目前关于半监督学习的方法很多,而Self-taught Learning的独特之处在于它不要求未标记的数据样本和已标记的数据样本(1)标记集一样;(2)二者独立同分布(iid)。
本文提出的“Self-taught Learning”算法可以归纳为求解两个优化问题。
1.通过Sparse Coding方法求解未标记数据样本集的“基元”(basic elements)。注意:(1)基元的个数可以大于未标记样本的维数;(2)基元集不要求是正交集。这两点是Sparse Coding和PCA方法的显著区别。该优化问题的直观解释就是寻找一组基,使得在该基下,重构误差和重构系数尽可能地小。
2.求解完第一个优化问题后,获得了一组基。接下来要做的就是求已标记的样本集在这组基下的系数,文中将这个过程建模为一个优化问题特征向量,即在基下的“最优”系数。
[5] Automatic Semantic Annotation of Real-World Web Images
【关于作者】
【文章摘要】
[6] Real-Time Computerized Annotation of Pictures
【作
Jia Li(http://www.stat.psu.edu/~jiali/),女,中国人,Stanford博士毕业,现在PSU,与James Z. Wang(http://wang.ist.psu.edu/docs/home.shtml)同事。主要研究方向是统计学习及其在计算机视觉中的应用(如Image Annotation, Image Retrieval等),代表性研究成果Automatic Linguistic Indexing of Picture – Real Time: ALIPR(http://alipr.com)。
【文章摘要】
- (转)图像理解(1)
- 图像理解综述(一)
- 图像边缘检测算法的理解(转)
- 学习随笔(1)之图像的像素理解
- 理解图像的傅里叶变换(细心分析)
- 理解图像的傅里叶变换(细心分析)
- 理解图像的傅里叶变换(细心分析)
- 支持向量机的近邻理解:图像二分类为例(1)
- OpenCv学习笔记(一):图像金字塔之初步理解
- 图像检索----迭代量化(Iterative Quantization)理解
- OpenCV17(图像二维频谱的理解,傅里叶频谱分析)
- 图像检索----迭代量化(Iterative Quantization)理解
- 图像去模糊(一)——理解模糊核
- 零基础之位图(理解计算机图像用)
- 【转】常用图像算法(图像增强)
- opencv图像基础(1)图像深度
- 图像编码(1)
- 图像基本知识(1)
- Basic color schemes - Introduction to Color Theory
- LCD最新资料大全
- UI开发基础和控件
- tomcat nio模式下 Too many open files
- linux 小结
- (转)图像理解(1)
- 在Mac OS 中编译libffi
- Arm-Linux根文件系统网络配置小结
- Visual Assist X_ refactor功能初探[原]
- 使用者与资讯管理 useradd、userdel、usermod 、userconf、who、groupmod、groupdel、top、sudo、kill、ps、top、uname、free
- DevStack安装问题与解决方法
- Cocos2d-x&CocosBuilder 编程《1》 安装与简单开始
- paip. C#.NET循环获取不同随机数的方法根据时间
- JVM中复杂对象的原子操作