对CBIR系统发展所面临的两大不适定问题--semantic gap & sensory gap 的浅显理解

来源:互联网 发布:win10 windows凭据 编辑:程序博客网 时间:2024/04/30 12:42

不适定问题是什么?

适定问题的定义:满足下列三个要求的问题

  1. 问题解是存在的。
  2. 解是惟一的。
  3. 解连续依赖于定解条件。

这三个要求中,只要不满足一条,则称之为不适定问题。

(来源:百度百科 点击打开链接)

 

言归正传,对semantic gap 和 sensory gap 的理解:

 

Semantic gap:The semantic gap is the lack of coincidence betweenthe information that one can extract from the visual data andtheinterpretation that the same data have for a user in a given situation.

 

理解:semantic gap是对同一张图片来讲,是计算机和人之间的差异。计算机能够从图像中提取的低层特征信息与人能够从图像中感知高层语义信息之间的gap,因为计算机根据特征信息判断图像的语义信息有一定的困难,因此这是CBIR所要解决的问题。

 

Information:指的是计算机从图像中提取的信息,比如颜色、形状、纹理等低层视觉特征。

Interpretation: 指的的人从图片中感知到的诸如男人、高楼大厦等对象信息;欢乐、痛苦等表达的情感信息;篮球比赛、唱歌等事件信息。这些信息就是人能够理解的高层语义特征。

如下图:

计算机提取的低层视觉特征:

  • 颜色:蓝色、白色和绿色
  • 形状:
  • 纹理:

人能够理解的高层语义特征:

  • 对象:蓝天、白云、绿草
  • 事件:
  • 情感:

计算机自动提取的低层视觉特征和人所理解的高层语义特征存在巨大的差异。由于人对图像的相似性的判别依据与计算机对相似性的判别一句之间的不同,造成了人所裂解的“语义相似”与计算机理解的“视觉相似”之间的Semantic gap的产生。

 

Sensory gap:the gap between the object in the world and the information in a computational description derived from a recording of the scene.

 

理解:sensory gap 是真实世界和图像等记录间存在的差异,图像不能完整地描述真实世界而造成的鸿沟,理解的不是很透彻,也没有具体例子去理解。

下面是从一篇论文上摘下来的两种sensory gap的描述。(参考文献1.)

 

  • The 2D-records of different 3D-objects can be identical. Without further knowledge,one has to decide that they might represent the same object.
  • Also, a 2D-recording of a 3D-scene contains information accidental for that scene and that sensing but one does not know what part of the information is scene related.

参考文献:

1.Smeulders AWM, Worring M, Santini S, Gupta A, Jain R. Content-Based Image Retrieval at the End of the Early Years. IEEE Trans Pattern Anal Mach Intell 2000;22(12):1349-80.

 

原创粉丝点击