MPEG2与MPEG4在视频编码的简单比较

来源：互联网发布：linux tracepath 编辑：程序博客网时间：2024/04/28 09:50

1　MPEG-2技术

MPEG-2的初衷是为广播级电视质量（CCIR601格式）的视音频信号定义的压缩编码标准，但最终结果是成为了一个通用的标准，能在很大范围内对不同分辨率和不同输出比特率的图像信号进行有效编码。

MPEG-2的编码技术主要基于两个概念：即时间相关性与空间相关性。所谓时间相关性指的是物体前后运动的连续性，例如，一扇门的开启不可能是开关两个状态，而一定是关、微开、开等一系列的连续动作，因此利用前一次的动作可以预测下一次的动作；空间相关性指的是空间内相邻物体的色彩和亮度是一个渐变过程，而非一个突变过程。有一点美术常识的人都很容易明白，即白黑的过渡是渐进的，而非突变。如果将空间每一点及时间上每一帧进行独立编码，虽然能够表达所有的信息，但是带宽非常大，几乎没有一样载体可以经济地传送这种信号；另一方面从信息学的角度来看，也包含着大量的冗余信息。数据压缩正是基于这样的角度，采用相应的编码方式将大量的冗余信息去除，保留有用的信息，有效节省带宽。

MPEG－2技术综合采用了3大基本编码技术，即预测编码、变换编码和统计编码。压缩技术采用多种编码手段消除系统的冗余信息，归纳起来将有以下四个方面。
①利用二维DCT减少图像的空间冗余度；
②利用运动补偿预测减少图像的时间域冗余度；
③利用视觉加权量化减少图像的“灰度域”冗余度；
④利用熵编码来减少图像“频率域”上统计特性方面的冗余度；

此外，MPEG－2在MPEG－1的基础之上扩充了“可伸缩性”和“可分级性”两个概念，

所谓“可伸缩性”指的是对码流的一部分进行编码和对码流的全部解码获得的图像分辨率（或信噪比等）要低。MPEG－2所支持的可伸缩的视频编码方式共有时间、空间、信噪比及数据分割等四种。

“可分级性”则是指在 MPEG－2中用范畴（Profile）以及层次两个定义来描述不同的编码参数集。每个范畴是前一个的合集（Profile），层次则规定了空间和时间分辨率的上限。

MPEG－2标准的第3部分详细地描述音频部分的压缩，并在MPEG－1的基础之上，增加了AC－3编码方式。对音频部分信号采用3种压缩模式，称为层次1、2和3。随着层次的增加，复杂度相应增加，层次具有向下兼容性，即层次3的解码器可以对层次2或层次1编码的码流进行解码。

层次2与MUSICAM（Masking Pattern Adapted Universal Subband Integrated Coding and Mul－tiplexing）压缩方法相同。对于频率在20kHz以下的音乐信号，以48kHz（或44．1kHz）采用并用16（或18）比特量化，采用上述的方法可以将双声道立体声的一个声道压缩成96或128kb／s。层次1是层次2的简化形式，它将单声道压缩到192或256kb／s。层次3即我们通常说的MP3，采用了MUSICAM和ASPEC（Adaptive Spectual Perceptual Entropy Coding）两种算法的结合，压缩后的比特率为每声道64kb／s。

AC-3则是对6个声道的音频进行压缩的标准，这6个声道分别为左、中、右、左环绕、右环绕和低频增强，其中前5个声道的带宽为3Hz20kHz，最后一个声道限制在120Hz。所有声道的采样率均为48kHz，每个取样值量化到1622b，并采用TDAC分析仪将音频信号划分成子带，然后根据人的听觉心理－生理特征对不同子带信号采取不同的量化以实现数据的压缩。多个声道的总数据率最后压缩成320kb／s。

2　MPEG－4技术

从技术角度来看，MPEG－4标准与MPEG－2标准的基点大相径庭，MPEG－4不再将图像看成是一个矩形像素阵列的序列，把音频看成是一个多声道或单声道的声音，而是深入到组成一个场景的视频、音频对象的语义中去，对不同的主体采用不同的编码方式，例如把一幅图像中活泼的白猫和毛线团以及背景中的房间分别进行编码。各种视、音频源不限于自然界，也可以是合成源，最终在解码端进行组合。因此MPEG－4是完全基于对象的一种编码方式。当然 MPEG－4采用了比MPEG－2更为先进的压缩方式，因此简单说，基于内容的压缩、更高的压缩比和时空可伸缩性是MPEG－4的3个最重要的特点。

MPEG－4几乎涵盖了MPEG－2的所有功能，并支持基于内容的独立编码和解码。此项功能又成为基于内容的可分级性，这一机制为压缩域中对图像或视频内容的交互提供了最基本机制，而无须在接收机做进一步的分割或代码转换。

MPEG－4自制定之日起，就受到了密切关注，从1993年开始着手制定，到预定完成时间（1997年）似乎仍很不成熟，因而转向全面支持目前标准尚未全面支持的应用。例如，移动通信中的声像业务、与其它多媒体数据（如计算机产生的图形、图像）的集成和交互式多媒体服务等。MPEG－4发展的艰难历程可以从两个方面加以说明。

（1）MPEG－4标准在制定时想适用于所有的应用和环境，并想采用第二代压缩算法。但是实际由于当时第二代算法中的很多算法都很不成熟，因此结果使得MPEG－4的压缩技术变的难度很高，使得其不得不中途变节，加长了应用的时间、丧失了占据市场的先机；

（2）由于时间上的延迟，本希望应用于各种场合，结果反变成没有适用的场合。从低信息量的视讯电话、视讯会议、到储存媒体的VCD、DVD，到最高品质的HDTV，各种标准已经确定，各相关产品也已经陆续上市。而厂商受限于研发及销售成本和时间的考虑，不太可能为了新的标准而重新开发产品。

MPEG-4标准

现代移动通讯和个人通讯业务要求从普通话音扩展到多媒体业务，即提供声音、文字、数据、图形和视频等信息媒体，使用户在移动通讯网中进行生动、丰富和有效的多媒体信息交流，其实现的关键技术是甚低速音频视频压缩。

MPEG-4目标
专门用于64Kbps以下甚低速率的音视编码
适用于移动通讯、个人通讯、固定公用通讯网和电视电话
适用于窄带多媒体通讯等广泛应用
实现基于内容的压缩编码，具有良好兼容性、伸缩性和可靠性

MPEG-4主要功能
基于内容的多媒体数据存取工具
基于内容的管理和数码流的编辑
自然的与合成的景物混合编码
时间域的随机存取
改进编码效率
多路并存的数码流编码
通用存取差错环境中的坚韧性
基于内容的可分级性

MPEG-4的显著特点是"基于内容的"，编码时，应考虑不同视频内容，如：文字、绘图与计算机生成的景象，画面各部分活动情况等；视频格式应包括以下参数：空间亮度分辨率，空间色度分辨率，时间分辨率，像素宽高比，取样量化，Y、Cb、Cr样值比特率，色度空间、逐行或隔行扫描，平面或立体等。 MPEG-4制定了一个称为传输多媒体集成框架（DMIF）的会话协议，用来管理多媒体数据流。

从模式上看，校园网的组播应用主要分为点到多点（包括信息推送、管理通知、节目播放等应用）、多点到多点（包括视频会议、协同工作、平行处理、网络游戏等应用）、多点到点（包括数据采集、资源查找等应用）三种类型的应用，通过对校园网应用的了解，前两者需求较大。从应用的内容和服务质量要求看，多媒体相关的应用如视频/音频会议会占到很大的带宽，对网络的质量要求较高。

3　结论

通过以上的介绍不难看出，MPEG-2与MPEG-4之间最根本的区别在于编码的出发点的不同，前者是基于矩阵相素图像的压缩，后种是基于图像中不同物体的压缩；前者发展的比较成熟，并已经成为广播电视行业的标准，后者主要针对于低码率场合应用，适用相对范围宽。从发展趋势上看，MPEG－2将会在有线电视网上进一步发展，而MPEG-7则是MPEG-4的进一步发展，主要适用于基于对象的查询。

===================

MPEG2与MPEG4在视频编码的简单比较

MPEG2 制定于1994年，是建立在MPEG1之上，设计目标是高级工业标准的图像质量以及更高的传输率。它主要应用在没有色度畸变要求场合的高质量视频，数据速率在1.1Mbps到20Mbps之间。MPEG2能够提供广播级的视像和CD级的音质。MPEG2不仅能录制电视节目，而且还是为录制高清晰度的高质量动态图像而开发的，能够存储比MPEG1清晰度更高的动态图像。除了作为DVD的指定标准外，MPEG2还可用于为数字有线电视分配、通过ATM的网络数据库业务、数字VTR应用以及卫星和地面数字广播分配等提供广播级的数字视频。除此之外，在最近迅速增加的拥有电视录像功能的PC，及外置的视频捕获装置中也使用了MPEG2。

从本质上说，MPEG2可以视为是一组MPEG1的最高级编码标准，并设计能向后兼容MPEG1，即每一个MPEG2兼容解码器能对有效的 MPEG1比特流进行解码。为了满足多种不同应用的需求，MPEG2将许多视频编码算法综合于单个句法之中；为获得足够的性能和质量，MPEG2还增添了许多新的编码特性。MPEG2具备两种编码模式，一是非可分等级的编码模式，二是可分等级的编码模式。

在非可分等级的编码中，与MPEG1一样，MPEG2是以通用的混合DCT和DPCM编码为基础，加入了宏块结构、运动补偿和帧间预测的编码方式。 MPEG2引进了一些新的运动补偿场预测模式，以便有效地对场图像和帧图像加以编码，如,为了支持隔行视频的场图像的场间预测、帧图像的场间预测、用于P 帧的双基预测和用于场图像的16x8预测等针对隔行扫描图像的更有效预测编码模式。另外，MPEG2还引入了更高的色信号取样模式。MPEG1中使用 4:1:1模式，即色信号的取样无论在水平方向，还是在垂直方向上都是亮度信号样点数的1/2。MPEG2除了4:2:0外，还支持4:2:2和 4:4:4模式，前者色信号的样点数在垂直方向上与亮度信号相同，只在水平方向上是亮度信号的1/2；后者的色信号的样点数和亮度信号则完全相同。

除了非可分等级的编码模式外，MPEG2已经对可分级性方法进行了标准化。可分级编码在不同业务之间能提供互操作性，能满足传输频道或存储媒体对带宽的特殊需求，能较灵活地支持具有不同显示功能的各种接收机。有的接收机既没有能力或者也不要求再现视频的全部清晰度，那么就可以只对分层比特流的子集进行解码，以较低的空间或时间清晰度，或者较低的质量，来显示视频图像。可分级编码灵活支持多种清晰度的这一功能对于HDTV跟标准清晰度电视(SDTV) 相互配合运作来讲十分重要，保持HDTV接收机应跟SDTV产品相兼容。只要HDTV源进行了可分级编码，就能实现这一兼容性，这就能避免很浪费地将两个单独的比特流分别地传输给HDTV和SDTV接收机。MPEG2已对三种可分级编码方案进行了标准化：SNR可分级性、空间可分级性及时间可分级性--每一种方案的目标在于有助于满足特殊应用的需求。空间可分级性已经开发完成，以便在接收机显示不同的空间清晰度--从基层能够再现空间清晰度较低的视频，这一功能对于许多应用都是有用的，包括对HDTV／TV系统采用嵌入式编码，这样就允许从数字TV业务向具有较高空间清晰度的HDTV业务过渡。空间可分级性能够灵活的支持很宽范围的空间清晰度，但给主要编码方案增添了很大的装置复杂性。SNR可分级性已基本开发成功，对于按优先排列传输媒体来说，SNR可分级性能使视频质量下降时比较缓慢(质量可分级性)，如果基层能避免受到传输误差的影响，那么只要对基层信号加以解码，就能获得质量衰减缓慢的视频。用来实现质量缓慢衰减的算法基于一种频率(DCT域)可分级性技术，能够获得极佳的编码效率。在基层，DCT系数在量化步长较大下被量化和发送，以便在低比特率情况下来获取适中的图像质量。非量化DCT系数跟来自基层、量化步长较小的量化系数之间存在差值，而增强层就对这一差值进行编码，加以发送。在解码器，通过对较低层和较高层比特流进行解码，就能再现最高质量的视频信号。利用这一方法，也可能在接收机中获取空间清晰度较低的视频图像。已开发的时间可分级性方法的目的跟空间可分级性的相类似--只要具有一个适用于立体显示功能接收机的分层比特流，立体视频就能得到支持。不同的可分级性方法还可以结合于一个混合编码方案之中，也就是说，将空间可分级性和时间可分级性方法结合于一个混合层编码方案之中，这样，拥有不同空间清晰度和帧频的各种业务之间的互操作性就能得到支持。将空间可分级性与SNR可分级性相结合，就能够获得HDTV与SDTV业务之间的互操作性，并对频道误差有一定的恢复功能 MPEG2句法最多可支持三个不同的可分级层。可分级编码的其它一些重要应用还有视频数据库浏览以及在多媒体环境中视频的多清晰度重放。

而MPEG4提出的来的初衷是制定一个通用的低码率（64KB/S以下）的标准，并打算采用第二代压缩编码算法，以有效的支持甚低码率的应用。但是由于很多压缩编码的第二代算法仍处于研究阶段或是不够成熟，MPEG4目标又转向支持目前的标准尚未全面支持的那些应用。例如，移动通信中的声像业务，与其他多媒体数据（如计算机产生的图形，图像）的集成和交互式多媒体服务等。在5－64KB/S的范围内，MPEG4支持的图像格式从每行几个像素、每帧几行到CIF格式，帧率从0Hz到15Hz。由于其压缩率非常高，数据量也很小，因而图像质量不如MPEG1及2。

MPEG4包括如下几部分主要功能：

1，基于内容的编码（content-oriented）,即不是像MPEG1,2基于像素的编码，而是基于对象（object）和实体 (entity)进行编码。对每一个对象的编码形成一个对象码流层，该码流中包含着对象的形状、位置、纹理以及其他方面的属性等。对一幅图像编码所形成的码流就由一系列这样的对象层码流所构成。用户可以直接对“对象层”进行存取操作。??

2，编码效率的改进和并发数据流的编码。

3，错误处理的鲁棒性，有助于低比特率视频信号在高误码率环境（如移动通信环境）下的存储和传输。

4，基于内容的可伸缩性（scalable）,用户可以有选择的只对感兴趣的对象进行传输、解码和显示。

与MPEG4主要面对移动通信或目前Internet上低带宽多媒体的应用相比，MPEG2主要是用于高带宽高保真的多媒体业务环境，它可以提供广播电视级图像质量乃至高清晰度电视的图像质量。MPEG2的提出使得目前人们在业余时间最主要的消费娱乐方式--电视，可以在数字网中传输，人们有可能通过网络来欣赏电视。对于多媒体业务来说，这是一个重要的进步。这使得多媒体业务系统真正走进人们的生活。目前，符合MPEG2标准的视频压缩编码器已形成商品化产品。