mpeg2

来源：互联网发布：过山车之星优化编辑：程序博客网时间：2024/05/01 19:20

一. MPEG-2标准简介

　　现有MPEG-2视频标准的技术规范集包括6类（profile）4级（level）组成，并采用分级编码。所谓级是指MPEG-2的输入格式，标识从有限清晰度的VHS 质量图象到HDTV图象，每一种输入格式编码后都有一个相应的范围。

. 低级LL(Low Level)：图象输入格式的象素是ITU-R Rec.BT 601格式的1/4，即352*240*30或352*288*25，相应编码的最大输出码率为4Mbps。
. 主级ML(Main Level):图象输入格式符合ITU-R Rec.BT 601格式，即720*480*30或720*576*25。相应编码的最大输出码率为15Mbps。高级类20Mbps。
. 1440高级H14L(High 1440 Level): 是1440*1152*25的高清晰度格式。相应编码的最大输出码率为60Mbps。高级类80Mbps。
. 高级HL（High Level）:图象输入格式为1920*1152*25的高清度格式。相应编码的最大输出码率80Mbps。高级类为100Mbps。

　　所谓类是指MPEG-2的不同处理方法，每一类都包括压缩和处理方法的一个集合。不同的类意味着使用不同集合的码率压缩工具。越高的类编码越精细，而每升高一类将提供前一类没有使用的附加工具，当然实现的代价会更高。而解码器却是向下兼容的，任何一种高级类解码器，均应能解码用低级类方法编码的图像。
　　 MPEG-2共分6类：简单类SP（Simple Profile）；主类MP（Main Profile），它比简单类增加了一种双向预测方法，在相同比特率的情况下，将给出比简单类更好的图像。主类的扩展类P（Profile），主要是由Tektronic公司和SONY公司在主类的基础上推出的更适用于演播室视频节目制作要求的数据压缩处理方法。信噪比可分级类SNRP（SNR Scaleable Profile）；空间可分级类SPP（Spatially Scaleable Profile）和高级类HP（High Profile）。前两种可分级工具允许将编码的视频数据分为基本层和上层信号。基本层表示编码图像的基本数据，但代表的图像质量低；上层信号则可用来改进信噪比或清晰度。这就意味着有时解码器可以忽略比特流中的增强部分，而只解码比特流中的基本部分，仍可得到有用的图像序列，只不过此时所得的图像分辨率低一些，或者帧速率低一些，或者质量低一些。
　　现有数字电视广播系统就利用了MPEG-2的这种可分级性，使数字信号能同时覆盖接收条件好的和接收条件差的地区，并使能接收和不能接收的区域过渡更为平滑，同时粗编码的低层信号可以有较强的抗干扰能力，可以有更大的覆盖范围。由于MPEG-2不仅消除了空间上的冗余，而且消除了时间上的冗余，因此使用MPEG-2可以在比较大的压缩比的情况下保持较好的图像质量，SONY的Betacam-SX采用10:1压缩，数据率为18Mb/S是现有数字录象机中最低的，有利于高速传输与存储。另外，MPEG-2还具有如下特色：
1．输出码率流速率可适应同步或异步传输，无需固定；
2．适应于逐行或隔行扫描系统；
3．可用于4:2:0、4:2:2、4:4:4等亮、色取样；
4．按清晰度可以将图象分为4个等级，高级解码器可与低级解码器实现下兼容；
5．按使用的工具和方法不同分为5种类型，即允许分层性编码，以保证不同的传输与接收要求。
　　 MPEG-2的这种开放性的优点，决定了Betacam-SX将来可直接与众多公司生产的数字视频系统连接，进行数据交换、传输、制作而不需任何数字的转换设备，就连一贯采用M-JPEG数字压缩算法的非线形编辑领域也在积极向MPEG-2靠拢。Matrox、品尼高等一些非线形软、硬件主流产品厂商也已经宣布将于99年第一季度推出采用MPEG-2压缩算法的视频板卡及软件，无疑这其中受益的是Betacam-SX，而且Betacam-SX本身还推出了一种盘带结合型录象机，为进行非线形编辑提供了更加优越的条件。另外， MPEG-2将是广播电视向全数字化过渡的最佳选择也逐步被大多数视频专业人士认可，所以美国以及西方各国普遍以MPEG-2标准作为数字HDTV图像压缩编码系统的核心，这无疑又为Betacam-SX的未来发展提供了一个优越性。

二．Betacam-SX的零帧编辑
　　最初的MPEG-2标准是为视频分配而设计的，为家庭提供一个可接受的图象质量，但是由于有限的数据率（最大为15Mb/S）和采用4:2:0取样，它的质量并不适合专业制作和后期制作，4:2:0的取样结构也不能达到演播室对多代复制所要求的图象质量，采用小型GOP（Group Of Picture）结构和15Mb/S的数据率不能产生所需的图象质量，大型的GOP结构又令演播室的信号切换很困难也不能实现零帧编辑，因此很多的录象机采用帧内DCT处理，造成在整个节目到播出的链条中，节目制作是唯一不使用MPEG-2的部分。　　　　 SONY公司在与大批厂商的共同努力下，顺应了发展的趋势率先推出采用MPEG-2 MP@ML的改进型MPEG-2 4:2:2 P@ML压缩算法的Betacam-SX，以两帧（I帧和B帧）作为一个GOP，既保证了广播级的图像质量，又实现了高稳定性以及高速的数据传输，但是最初我们还是有一点疑问，就是Betacam-SX如何实现零帧编辑，这恐怕也是很多家电视台在选择数字录象机时的疑虑之处。在解释Betacam-SX如何实现零帧编辑之前，首先让我们先看一看其它采用帧内压缩的数字录象机是如何进行零帧编辑的。在进行复制或编辑时，目前数字录象机通常都使用串行数字（SDI）或模拟接口相连接的。因为即使装配了传输压缩数字信号的接口（如：SDTI、QSDI等），那么它只能应用在复制操作中，而一旦需要叠加字幕或在系统使用时，也必须使用SDI或模拟接口。
　　与之对应，解码也可分成三部分，解复用. 拆包和视频解码及音频解码。MPEG-2视频ES结构可分为6层：
<1>视频序列层。定义整个视频序列的结构，是节目的随机进入点。
<2>图像组层(GOP)。支持图象解码过程中的随机存取功能，GOP是视频编辑的随机进入点。
<3>图像层。包含一幅图象（帧）的所有编码信息，是编码处理的单位。
<4>象条层。在反DCT变换时提供同步的功能。
<5>宏块层。宏块是运动补偿处理的单位。由亮度块和色度块组成，包含P帧 B帧的运动矢量。
<6> 象块层。象块层是DCT变换的单位，提供DCT系数。

三. MPEG-2的编码方式
　　 MPEG-2有三种编码方式：帧内压缩编码方式；帧间压缩编码方式；帧内及帧间压缩编码方式。
　　压缩就是将视频信号中冗余减少的过程，首先必须识别每个视频场和帧中的冗余，这主要包括空间与时间上的冗余。去除视频信号空间冗余可通过DCT变换来完成，DCT变换是一个无信号损失的双向数学过程。它将空间分布的变化程度转变成重现空间分布所需的频率带宽。变换所得到的系数值既可以代表不断增加的更高的垂直和水平空间频率，也可以代表不同的水平和垂直空间频率组合。视频信号经过DCT变换后，较高的空间频率系数会变得非常细小，而据人眼的视觉特性，较高的空间频率系数可以少量的比特来表示，或者完全去掉而不影响图像质量。在实际应用时为保持信号的可逆性和无损性，常常采用更多的比特来表示DCT系数。去除视频信号时间冗余，可使用有运动补偿的帧间预测来完成。对于活动图像多数情况下只是其中的很少一部分图像在运动，即使有大范围的活动部分，前后帧尽管有很大区别，但移动物体本身大多数情况下是相同的。因此只需要找到图像中某一部分运动了多少就可以在前一帧找到相应图像的内容，这个查找过程称为运动估值，其表达方式是运动矢量；而把前一帧相应的运动部分补过来，得到其剩余的不同部分的过程称为运动补偿。就这样，采用运动补偿可以有效地去除视频信号在时间方向的重复信息，达到压缩的目的。
　　为了达到减少数据的目的，MPEG-2将4：2：2转换成4：2：0，并且通过量化，将代表每一个系数的比特数目减少。一般使用11比特来代表DCT系数，对于其他系数则采用较小的比特数目。每一个或每组宏块都有不同的量化刻度，对每个宏块采用不同的量化因数，使只含帧内压缩的MPEG能提供比同样图像质量的M-JPEG多出10%--20%的压缩效果。而相对于原来的DCT系数的数据，量化表及被量化的系数数据量要小得多。
　　在量化过程后，无损数据压缩是通过可变长度编码VLC和游程长度编码RLC实现的。VLC是在数据内寻找共同的图案或字符，采用较小数量的比特为经常出现的数值进行编码，而用较多数量的比特为较少出现的数值进行编码。RLC是用一个字符代表一串一定数目的零。总的目的只有一个，减少数据量。
　　量化表控制是一个决定如何量化DCT系数的过程；输出缓存可维持数据流，并提供量化器的控制，从而限制或维持数据流在一个一定的水平。在实际应用中，当压缩数据被录像机记录时，需要提供一个持续不变的比特率，以使机械部分以稳定的速率旋转扫描机构。而对于硬盘记录来说，又需要一个可变速的比特率。通常，一个可变速比特率是提供一个持续不变质量水平的较好选择。
　　帧间压缩一般是在未压缩的图像上进行，是一个无损过程。在图4中，在参考帧帧存中有一副完全解析度，完整数据的前一副图像。在预测帧帧存中拥有一个根据前一帧和运动矢量所建立的预测的当前帧。输出是预测的当前帧与实际当前帧相减后的差值。若没有运动或其他变化，当前帧便可得到完美的预测，差分帧输出为 0（极易压缩）。当前一帧和后一帧有点不同时，差分帧仍有少量数据需要压缩。
　　采用帧内压缩编码形成的图像称为I帧，形成过程见图3；采用帧内及帧间压缩编码形成的图像称为B帧和P帧。P 帧为前向预测帧，是以前一个I 帧为预测帧进行编码的。在I 帧和P 帧中间可以插入若干个B 帧，B 帧是从相邻的最近的I 帧或P 帧作双向预测进行编码的。形成P帧时参考帧帧存只要求存储一帧图象，而形成B帧时，参考帧帧存则需存储前后两帧图象。
　　由三种相互间有预测与生成关系的不同的帧数据，I 帧 P帧 B帧数据按照不同的组合组成图像组（GOP），再加上序列起始码和序列头等数据组成图像序列或ES，ES再打包成PES；PES再按188byte的固定长度加上各种参数组成传送码流TS。