MPEG- 4 算法标准特性

来源:互联网 发布:2345网络电视直播 编辑:程序博客网 时间:2024/06/01 07:23

MPEG- 4 是由MPEG(Moving Picture Expert Group 动态图像专家组)制定的一个ISO 和IEC 标准,该委员会曾经制定出获得艾美奖的标准——MPEG- 1(VCD)和MPEG- 2(DVD)。这些标准使在CD- ROM 和数字电视上制作交互视频成为可能。MPEG- 4 是国际组织和遍布世界的几百位研究者与工程师合作的成果。MPEG- 4 的标准号是ISO/ IEC 14496,定稿于1998 年10 月,于1999 年1 月成为国际标准。完全向后兼容的MPEG- 4 第二版于1999 年底定稿,于2000 年初被正式接受为国际标准,有些细节仍在制定过程中。

MPEG- 4 算法标准适应范围宽,档级多,从兼容传统的视频编码到高级的对象编码。视频对象编码是把视频场景按照对象目标进行分割,一般包括场景和场景的各个目标。对不同的目标对象选用不同的编码技术,从而达到系统、的高效的视频编码。但是由于视频对象分割目前仍然是个难点,还处于尚未成熟或研究阶段,MPEG- 4 的应用和开发仍然是基于像素的传统视频编码。只是把整个帧看做一个对象VOP(Video Object Plance),分别编码纹理信息(残差或图像本身)和运动信息(运动向量)。MPEG- 4 是提供了大量丰富的音频视频对象的编码工具,能够满足多种应用需求。而对于某一特定的应用,只有一部分编码工具被采用,框架(Profile)就是针对特定的应用确定要采用的编码工具,它是MPEG- 4 提供的工具集的一个子集。每一个框架又有一个或多个级别(Level)来限制算法的复杂度。

MPEG- 4 共有4 类框架:视频框架、音频框架、图形框架和场景描述框架。其中视频框架又包含如下5 个级别:

●  Simple Visual Profile:提供矩形视频对象的高效、有容错能力的编码功能,适合应用于移动网络。

●  Simple Scalable Visual Profile:在Simple Profile 基础上增加了对象时域和空域扩展编码功能,应用于提供多级服务质量的应用,如Internet 和软件解码。

●  Core Visual Profile:在Simple Profile 基础上增加了任意形状对象编码和时域扩展编码功能,适用于相对简单的内容交互应用,如Internet 多媒体应用。

●  Main Visual Profile:在Core Profile 基础上增加了Sprite 对象编码功能,适用于交互式应用和娱乐级别质量的视频广播和DVD 应用等。

●  N- Bit Visual Profile:在Core Profile 基础上增加了具有不同像素深度(4 ~12bits)的视频对象编码功能,适用于监控应用。

MPEG- 4 之前的视频标准都是采用第一代压缩编码技术,基于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行预测、运动补偿和编码,这种编码方案存在以下缺陷:

●  将图像分成相同大小的块,高压缩比情况下会出现严重的块效应;

●  无法对视频内容进行访问、编辑和回放等操作;

●  未充分利用人类视觉系统HVS(Human Visual System)的特性。MPEG- 4 代表了基于模型和对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。

MPEG- 4 除采用第一代视频编码的核心技术,如帧内预测、运动估计、变换量化及熵编码外,还提出了一些新的有创见性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的完善和改进,下面重点介绍其中的一些关键技术。

(1)视频对象编码MPEG- 4 实现基于内容操作的前提是把视频/ 图像分割成不同对象,或者把运动对象从背景中分离出来,然后针对不同对象采用相应的编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG- 4 视频编码的关键技术,也是新一代视频编码的研究热点和难点。视频对象分割涉及对视频内容的分析和理解,这与多种学科,人工智能、图像理解、模式识别和神经网络等有密切的联系。人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明,要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管MPEG- 4 框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割的问题,视频对象分割已被公认为是一个具有挑战性的难题,基于语义的对象分割则更加困难。

(2)VOP 视频编码视频对象平面(VOP)是视频对象(VO)在某一时刻的采样,VOP 是MPEG- 4 视频编码的核心概念。MPEG- 4 在编码过程中针对不同VO 采用不同的编码策略,即对前景VO 的压缩编码尽可能保留细节和平滑;对背景VO 则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。MPEG- 4 支持任意形状的图像与视频的编解码。

(3)视频编码可分级性随着因特网业务的不断增多,在速率起伏很大的网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下,视频分级编码的重要性日益突出,其应用非常广泛,且具有很高的理论研究及实际应用价值,因此受到人们的极大关注。视频编码的可分级性(Scalability)是指码率的可调整性,即视频数据只压缩一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类型用户的各种不同应用要求。MPEG- 4 通过视频对象层VOL(Video Object Layer)数据结构来实现分级编码。MPEG- 4 提供了两种基本分级工具,即时域分级(Temporal Scalability)和空域分级(Spatial Scalability),此外,还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。

(4)运动估计与运动补偿MPEG- 4 采用I- VOP、P- VOP、B- VOP 三种帧格式来表示不同的视频编码类型。它采用了1/ 2、1/ 4 像素搜索和重叠运动补偿技术,同时又引入重复填充技术和修改的块(多边形)匹配技术以支持任意形状的VOP 区域。同时,为提高运动估计算法精度、降低算法运算量,MPEG- 4 采用MVFAST(Motion Vector Field Adaptive Search Technique)和改进的PMVFAST(Predictive MVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的快速稳健的FFRGMET(Feature- based Fast and Robust Global Motion Estimation Technique)方法。

MPEG- 4 视频编码算法中,运动估计模块最耗时,对编码的实时性影响最大,因此实际应用开发时强调快速算法。运动估计方法主要有像素递归和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H. 263 和MPEG 中被广泛采用。在块匹配法中,重点研究块匹配准则及搜索方法。在选取匹配准则后,就应进行寻找最优匹配点的搜索工作。最简单、最可靠的方法是全搜索法(FS,Full Search),但计算量太大,不便于实时实现。
因此快速搜索法应运而生,主要包括三步搜索法、二维对数法和钻石搜索法,其中钻石搜索法被MPEG- 4 校验模型VM(Verification Model)所采纳。钻石搜索法DS(Diamond Search)以搜索模板形状而得名,具有简单、鲁棒、高效的特点,是现有性能最优的快速搜索算法之一。其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响。在搜索最优匹配点时,选择小的搜索模板可能会出现局部最优,选择大的搜索模板则可能无法找到最优点。因此DS 算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板。大钻石搜索模板LDSP(Large Diamond Search Pattern)和小钻石搜索模板SDSP(Small Diamond Search Pattern)。
0 0
原创粉丝点击