互联网上图像信息检索

来源：互联网发布：美国最高法院知乎编辑：程序博客网时间：2024/04/30 19:56

互联网上图像信息检索

微软中国研究院陈正李明镜马维英

图像检索技术的两个阶段

随着互联网的高速发展，网上的多媒体信息也急剧增加，因此人们对多媒体信息的检索需求也就随之而来。传统的信息检索主要集中于文字的检索，在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主，因此图像的检索就成为了目前研究的热点。

互联网上图像的检索经历了两个阶段:第一阶段是以关键字为基础的检索。第二阶段是以图像自身的内容为基础的检索。

在基于关键字的图像检索系统中，需要先对所有的图像进行关键字标注，然后才能使用全文检索技术对图像进行搜索。这种方法存在两个方面的问题:一是这种方法需要较多的人工参与，而且随着图像数目的增加，这种方法很难实现；第二个问题在于图像所包含的信息量庞大，不同的人对于同一张图像的理解也不相同，这就导致对图像的标注没有一个统一的标准，因而检索的结果不能很好地符合用户的需求。

基于内容的检索不同于基于关键字的检索，它不需要过多的人工参与，而利用图像自身的特征（如颜色、纹理、形状等）来进行检索，具有较强的客观性。但是，由于这些特征并不代表图像真正的语义信息，基于内容的检索结果往往不令人满意。因此目前大多数系统还是基于关键字的检索，如AltaVista、Yahoo!、Ditto等。

为此，我们提出了一种在互联网上进行图像检索的新方法，它把基于关键字的检索和基于内容的检索相结合，并引入了用户的相关反馈来优化检索结果。在下文中我们将介绍如何在互联网上收集图像、建立索引以及进行检索。并将介绍如何结合用户的交互，利用相关反馈来提高检索的结果。最后，我们将对图像检索给出总结。

互联网上的图像检索

要建立互联网上的图像检索系统，需要解决三个方面的问题。首先是如何从互联网上获取图像，其次是如何对获取的图像建立相应的索引，最后是如何根据用户的需求在图像数据库中进行检索。

1．图像的获取

互联网上存在各式各样的图像，我们需要收集一些用户最感兴趣的、具有代表性的图像以供用户使用。首先，根据目前一些流行的搜索引擎的分类，建立相应的图像分类的层次结构；然后针对每个类别选择一些热门的、具有代表性的站点作为候选。例如在体育方面的http://www.nba.com，政治方面的http://www.whitehouse.gov，娱乐方面的http://www.disney.com，新闻方面的http://www.cnn.com等站点均被选择成为下载图像的站点。

然后，设计一个高效率的软件工具（Crawler），针对选定的代表性站点自动进行图像的收集。站点内所有的页面都将送给页面分析器进行分析，页面内所有的图像都将以链接的方式存储到相应的数据库中。同时，一些启发式信息，如图像的尺寸、文件类型、文件名、图像的颜色直方图等，将用来对图像进行简单的分类，把广告条、背景、图标、按钮等无语义信息的图像与用户真正需要的图像区别开，以供用户查询。

2．图像特征的抽取及索引

对收集到的图像，需要进行特征抽取，并建立相应的索引，以提高检索的效率。图像的特征分为两种，一种是图像的低层特征，如图像的颜色、纹理及其形状等。另外一类特征则是图像的语义特征。

对于图像的低层特征，主要采用的是图像的颜色、纹理及其形状等特征。其中，颜色特征和图像的大小、方向无关，而且对图像的背景颜色不敏感，因此颜色特征被广泛应用于图像检索。颜色特征中包括颜色直方图、颜色相关图、颜色矩等。纹理特征代表了物体的视觉模式，它包含了物体表面的组织结构以及与周围环境之间的关系。常用的方法有相关矩阵法，粗糙度、对比度等纹理表示方法，以及小波变换等。形状特征则包括两种，一种是基于边界的形状特征，另外一种则是基于区域的形状特征。最成功的表示方法有傅利叶变换和不变矩等。这些低层的特征将通过各种方法抽取出来，并形成一组特征向量，建立相关索引并存储到数据库中。

由于低层的特征并不直接代表图像的语义信息，因此我们还将抽取图像的语义特征。我们采用在网页中与图像相关的文字信息来表征图像的语义特征，其中使用到的相关信息有：

图像的文件名及其网址　大多数作者直接通过文件名来表示图像的内容，如redflower.jpg、cat.jpg、clinton.jpg等，就直接把图像的内容体现在文件名之中。同时，图像的网址信息也提供了一些相关的语义信息，如http://www.ditto.com/images/animals/anim_birds.jpg就提供了图像所属的类别信息及其语义信息。

图像的替代文字（Alternate Text）　替代文字在网页中通常用来表示图像的语义信息，而且也是最为准确的一个特征。不过，并不是所有的作者都愿意提供这个信息。

图像周围的文字（Surrounding Text）　在网页中图像周围的文字是最可能表达图像所有包含的内容的，虽然有些文字可能与图像并不相关，不过这些文字在一定程度上还是表达了图像的语义信息，因此被选择成为语义特征之一。

图像所在页面的标题　有些图像用来加强作者的意图，因此有些图像的内容同页面的标题内容直接相关。页面的标题也就成为语义特征之一。

图像的超链接（Hyperlink）　图像的超链接信息在一定程度上与图像的内容相关。因此一些语义特征可以通过对超链接的分析计算得到。

图像所在网页彼此间的链接（Link-Structure）　藉由对网页与网页间的链接分析（Link Analysis），网页内所包含的图像彼此间语义上的相似性可以在一定程度上计算得到。这些信息可以用来加强图像检索的效果。

所有这些特征，都将通过页面分析器从网页中自动抽取出来，并被赋予不同的重要性,并按照传统的文本信息检索技术，建立图像的语义特征向量。向量的每个分量都对应一个关键字，它的值取决于该关键字在与图像有关的网页中的分布。如果一个关键字在一个网页中出现很多次，对应的分量就会大一些:另一方面，如果这个关键字出现在很多网页中，对应的分量就会小一些。这种方法在文本检索中被广泛采用，也适用于图像检索。

3．图像的检索

用户提交的查询，可以是关键字的查询，也可以是一张用户感兴趣的图像，系统将根据提交的查询，在图像数据库中找到一些最相似的图像返回给用户。提交的查询将首先转换成为一个由低层特征和高层特征结合的向量，然后分别与数据库中图像的向量计算相似度。相似度的计算分类两步完成：一是计算低层特征的相似度，二是计算高层语义特征的相似度，然后采用线性组合的方法得到最后的相似度。相似度高的图像成为检索的结果。

相关反馈提高检索效果

虽然低层特征和高层的语义特征相结合，在一定程度上提高了图像检索的效果，不过检索系统的性能还是不太令人满意，其主要原因有以下几个方面：

1．从目前一些流行的搜索引擎来看，用户提交的查询的平均长度为2～3个关键字，这种短查询难以完全表达用户的需求，导致检索结果与用户的需求差异较大。

2．在数据库中存储的索引都是根据收集到的图像的各种相关文字来建立的，这些文字是从作者的角度来描述的，与用户所使用的词之间存在一定的差异。

3．由于一张图像中存在很多信息，而且不同的用户对同一张图像的认识差异也很大;这就使得即使是相同的查询，不同用户希望得到的结果差异也很大。

4．由于低层特征并不反映图像真正的语义信息，因此当用户提交一张图像作为查询时，系统很难找到用户真正想要寻找的图像。

这些问题导致自动的图像检索效果不能令人满意。因此，许多系统都引入了人的交互，通过用户的相关反馈，即通过选择一些正确/错误的例子作为反馈，来逐渐提高检索的结果。借鉴文本信息检索的方法，我们在系统中也引入了相关反馈来修改用户提交的查询，使得修改后的查询逐步接近用户真正的需求，来提高系统的性能。

通过相关反馈对用户提交的查询的修改，检索的性能比原先有了一定的提高。不过，大多数相关反馈并不具有记忆能力，每次反馈后的结果只能提高本次查询结果。因此我们引入了语义网络，把每次反馈的结果记录到语义网络中，使得系统的效果随着使用次数的增加而逐步提高。

分布式发展趋势

图像检索技术给用户提供了一个在互联网上搜索感兴趣图像资源的有效手段，它不仅利用图像自身的特征，如颜色、纹理和形状等，而且还利用到图像所处的网页中与其相关的文字信息作为该图像的语义特征，来提高图像检索的效果。另外，系统还引入了用户的相关反馈来改善用户的查询质量，使得查询的结果更加贴近用户的需求。最后，系统通过语义网络，记录用户查询的过程，为其他用户的查询提供指导作用。

由于传统的搜索引擎在设计方面存在局限性（集中式的体系结构，通过网络爬行器收集信息），因此它们无法提供高准确度、搜索实时更新的数据库的服务。因此，开发一个新的搜索框架，支持“点对点”，按照层次进行分布式搜索成为今后搜索引擎发展的趋势。这种新的搜索框架包含了对个人文档、局域网以及互联网三个层次的搜索。当搜索局域网或者是互联网的时候，搜索将以分布方式执行。同时，系统将能够自动地把用户的查询分发给相似的用户或者是互联网上最为合适的搜索引擎，以获得更好的结果。