annotation
来源:互联网 发布:淘宝商品存在交易风险 编辑:程序博客网 时间:2024/06/05 16:13
引言
从计算机信息处理的角度来看,个人认为一个完整的图像理解系统可以分为以下的四个层次:数据层、描述层、认知层和应用层(注:此分层方法类似于Selfridge(谢夫里奇)于1959年提出的小妖模型(Pandemonium Model)。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型,而本文是从信息处理的角度提出的一个图像理解系统分层框架;其次二者每层的任务也是不一样的)。各层的功能如下:
数据层:获取图像数据,这里的图像可以是二值图、灰度图、彩色的和深度图等,本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如:平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。
描述层:提取特征,度量特征之间的相似性(即距离); 采用的技术有子空间方法(Subspace)如:ISA,ICA,PCA, 。该层的主要任务就是将象素表示符号化(形式化)。
认知层:图像理解,即学习和推理(Learning and Inference);该层是图像理解系统的“发动机”。该层非常复杂,涉及面很广,正确的认知(理解)必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。
应用层:根据任务需求(分类、识别、检测)(ps:如果是视频理解,还包括跟踪),设计相应的分类器、学习算法等。
图像理解的潜在应用包括:
1。智能视觉监控:
2. 图像检索
3. 图像补充
本文的后续部分是文章的阅读笔记,每篇文章将按照上述的四个层次进行总结。
1.[Torralba, PAMI07] 80 million tiny images: a large dataset for non-parametric object and scene recognition
“模型+数据库”是计算机视觉中目标和场景识别重点研究的两个方面。但从目前的文献来看,大部分的研究集中在如何构建一个更好的模型,对数据集的关注相对较少。本文作者眼光独到,从建造一个大规模的数据库入手,告诉我们:如果数据库大了,做什么都好办。
作者利用关键字搜索在一些著名的搜索引擎上收集图片,经过8个月的努力,最终收集整理了79302017张图片(32*32),每张图片对应一个单词(即,一个语义标注),用到的名词共有75062个。整个数据库不压缩的话要占用750G的硬盘空间,规模之大实在是空前的。
2 [Russell, 2008] LabelMe: a database and web-based tool for image annotation
3. Scene Categorization from Tiny Images
【文章摘要】
自从A. Torralba提出tiny images后,很多研究者开始从事这方面的研究。本文通过实验说明:(1)对于场景分类来说,32*32的分辨率已经足够;(2)当图片的分辨率很小时,颜色是场景分类中的一个重要信息。文章作者所采用的特征(区域直方图)和分类方法(knn)都相当简单,但是却取得了46%的识别率。
本文作者采用的图像特征虽然简单,但是其思想相当不错。作者通过归一化图像块(8*8)的直方图,并计算其熵,用熵的平方作为该图像块的权值;然后将图像快划分为left, right, top, bottom, center五个区域,将其相应的图像块直方图累加起来。这种带权值的区域直方图思想值得借鉴,因为该方法能在一定程度上反应出图像的空间位置关系。
本文重点要传递的思想是:利用tiny images进行场景的分类是一个有趣的、有效的方法。在图像理解的四层模型中,本文所描述的区域直方图属于表示层。
作者在文章的最后对有关tiny images的研究进行了展望:
“…, one could use tiny images as detector for salient points. It would be possible to divide an image into a set of tiny images, which are then classified into predefined keypoint categories. If the tiny image is not rejected, it can be assigned to a class of keypoints and therefore describes the image with quite accurate localization. As a result, individual salient points – unrelated to edges or gradients – could be defined.”
4. Self-taught Learning: Transfer Learning from Unlabelled Data
【关于作者】
【文章摘要】
本文提出的“无师自通”迁移学习方法是一种新的机器学习框架。它不同于传统的监督学习(Supervised Learning)、无监督学习和增强学习(Reinforcement Learning,或者称为“Learning with a critic”---基于评价的学习),该方法通过从未标记数据样本(Unlabeled Data)中学习到一个紧凑的、有效的表示(Representation)(即,从未标记样本中学习一个较高层次的特征表示方法),然后将学习到的特征表示方法应用到监督学习任务中。“无师自通”学习方法不仅利用到了Labeled Data,也用到了Unlabeled Data,所以它既不是监督学习,也不是非监督学习,而是一种半监督学习(Semi-supervised Learning,关于半监督学习的综述参见[Zhu, 2008] Semi-supervised Learning Literature Survey)。
Self-taught Learning究竟迁移什么东西呢?它将从未标签数据样本中学到的数据表示方法(可以看成知识)迁移到带标签的数据样本中。该方法本质上可以看成是一种特征空间的变换,或者说“维数约减”(注:其实,维数约减说法比较不确切,因为诸如PCA之类的维数约减方法变换之后的维数通常比原来的维数少,但是本文的特征空间变换采用Sparse Coding,变换后的维数可以比原来的维数大)。目前关于半监督学习的方法很多,而Self-taught Learning的独特之处在于它不要求未标记的数据样本和已标记的数据样本(1)标记集一样;(2)二者独立同分布(iid)。
本文提出的“Self-taught Learning”算法可以归纳为求解两个优化问题。
1.通过Sparse Coding方法求解未标记数据样本集的“基元”(basic elements)。注意:(1)基元的个数可以大于未标记样本的维数;(2)基元集不要求是正交集。这两点是Sparse Coding和PCA方法的显著区别。该优化问题的直观解释就是寻找一组基,使得在该基下,重构误差和重构系数尽可能地小。
2.求解完第一个优化问题后,获得了一组基。接下来要做的就是求已标记的样本集在这组基下的系数,文中将这个过程建模为一个优化问题特征向量,即在基下的“最优”系数。
[5] Automatic Semantic Annotation of Real-World Web Images
【关于作者】
【文章摘要】
[6] Real-Time Computerized Annotation of Pictures
【作
Jia Li(http://www.stat.psu.edu/~jiali/),女,中国人,Stanford博士毕业,现在PSU,与James Z. Wang(http://wang.ist.psu.edu/docs/home.shtml)同事。主要研究方向是统计学习及其在计算机视觉中的应用(如Image Annotation, Image Retrieval等),代表性研究成果Automatic Linguistic Indexing of Picture – Real Time: ALIPR(http://alipr.com)。
【文章摘要】
from:http://blog.csdn.net/haitun425/article/details/8802182
- annotation
- Annotation
- Annotation
- Annotation
- Annotation
- Annotation
- Annotation
- Annotation
- annotation
- Annotation
- Annotation
- @Annotation
- Annotation
- Annotation
- Annotation
- Annotation
- Annotation
- Annotation
- 【原创】使用棋盘格实现摄像头序号标定
- TD不换行 nowrap属性
- XMPP/Jingle Vs SIP/SIMPLE 的简单介绍
- linux c 读取配置文件
- 二、CXF与springMVC整合的webService客户端调用
- annotation
- 有 JavaScript 基础,怎么学习 Node.js
- 《弄潮》读后感
- Uva 1632 alibaba 区间dp
- 如何修改pdf格式文件
- 后台的Activity被系统回收怎么办
- 分布式架构模型
- 今天我来到CSDN
- MSSQL脚本CODE编写智能提示工具