数字图像处理：第二十三章基于内容的图象与视频检索

来源：互联网发布：软件问题跟踪表编辑：程序博客网时间：2024/04/28 23:07

第二十三章基于内容的图象与视频检索

1. 引言

2. 基于内容检索的图象特征

3. 基于内容的视频标注与检索

作业

1. 引言

随着社会的信息化发展日益深入，互连网日益普及，越来越多的图象和视频信息是以数字方式存储的，如何有效地管理和利用这些以图象和视频的方式存储的信息成为十分重要的问题。

目前在图象数据库和视频信息系统中，检索主要是根据随图象和视频信息一起存储的文本描述进行的，通常这些文本十分简洁，主要含有拍摄时间、地点、拍摄者信息，对图象本身的内容描述如果不是没有的话，也是十分简短的，难以满足实际检索时多方面的需要。基于内容的图象和视频检索研究的目的是直接根据图象和视频本身的信息，抽取检索特征，建立索引树，再根据一定的相似性衡量标准，实现检索。

白雪生的博士论文[2]全面深入地研究了基于内容的检索问题，是这方面一个很好的参考资料，建议读者仔细阅读。

2. 基于内容检索的图象特征

对于支持基于内容的图象检索的数据库而言，必然支持两种主要的数据结构：物体和场景（objects and secenes）[1]。场景是一幅图象，其中可以含有一个或更多个物体，也可以没有物体，物体是场景的一部分。例如，汽车是交通场景的一个物体。这两种数据类型需要按照它们的视觉特征来表示，包括颜色、纹理（texture）、形状（shape）、位置以及作为线条图草图（line sketches）时的边界之间的关系。

常用的图象特征是颜色和纹理，此外对于物体检索而言，图象特征还包括几何特征如形状、尺寸和位置，此外还有基于草图的特征，例如刻画出图象中物体形状和方向的简单线条图特征。目前的图象检索方法主要根据彩色直方图特征和纹理度量特征，比较简单的方法有基于主颜色和颜色直方图的检索，更复杂的方法需要结合区域的位置关系（如上半个图表示天空和云彩，下半个图表示地面上的景物等）和几何形状（如圆形、线条框或轮廓等）信息按分层的方式综合起来，此外还可以根据用户的反馈信息利用机器学习的方法改进基于内容的图象检索算法。

基于内容的图象检索的结构[1]如下图所示：

特征的相似性比较主要有欧氏距离和Mahalanobis距离：

其中C是X的协方差矩阵。当假设特征分量之间相互独立时，C具有对角形式，即可以单独计算各自分量的方差。

例如，白雪生博士提供了如下的一些图象检索图片：

· 基于主颜色的图象检索

· 基于纹理的检索

3. 基于内容的视频标注与检索

视频内容的标注与检索是十分复杂而困难的问题，目前与图象检索一样都处在初期阶段。在视频的标注方面，比较成熟的技术是镜头（shot）分割、关键帧（key frame）提取，在此基础上形成镜头组织，包括场景层次图（SHG, Scene Hierarchy Graph）和场景转换图（Scene Transition Graph）。目前自动进行镜头组织的方法还难以达到令人满意的结果，人工交互组织不可避免。在这方面白雪生做了深入的研究工作，在其博士论文[2]中提出了利用相似顺序图对镜头进行组织的算法。根据镜头组织，可以实现基本的视频检索和浏览功能，此外白雪生提出了一种基于镜头频度进行检索的思想和算法，取得了较好的效果[2]。

以下给出白雪生的部分实验结果[2]，使读者有个基本认识：