数字视频相关概念整理

来源：互联网发布：36槽30kw发电机数据编辑：程序博客网时间：2024/06/06 18:50

这些内容，都是百度，google上整理来的，因为项目需要，给自己扫扫盲。。。

1.什么是"帧"？

在最早的电影里面，一幅静止的图像被称做一"帧(Frame)"，影片里的画面是每一秒钟有24帧，为什么是24帧，这个数字是怎么来的，因为人类眼睛的视觉暂留现象正好符合每秒24帧的标准，所以用多也没有意义还会浪费电影胶片，增加成本，所以就是24帧。

2.什么是"行"？

在我们用的传统CRT模似电视里面，一个电子束在水平方向的扫描被称之为行，或行扫描。

3.什么是"场"？

在我们用的传统CRT模似电视里面，一个行扫描，按垂直的方向扫描被称之为场，或场扫描。

4. 什么是NTSC制式？

NTSC(National Television System Committee)制式是1952年由美国国家电视制定委员会制定的彩色电视广播标准。美国、加拿大、以及中国台湾、韩国、菲律宾等国家采用的是这种制式。这种制式的彩色带宽为3.58Mhz，伴音带宽为6.0Mhz，每秒30帧画面。

5. 什么是PAL制式？

PAL(Phase Alternating Line)，是1965年制定的电视制，主要应用于中国、香港、中东地区和欧洲一带。这种制式的彩色带宽为4.43Mhz伴音带宽为6.5Mhz，每秒25帧画面，还有一种是SECAM制式德国地区采用的制式,因为应用比较少，就不多做介绍了。

6. 为何NTSC制为每秒30帧,而PAL制式每秒25帧？

这是因为采用NTSC的国家的市电为110V60HZ，所以电视里的场频信号直接就取样了交流电源的频率60HZ，因为两场组成一帧,所以60除以2等于30正好就是电视的帧数了，而我国的市电为220V50HZ，所以原因同上就是每秒25帧了。

7.什么是逐行？

电视的每帧画面是由若干条水平方向的扫描线组成的、PAL制为625行/帧，NTSC制为525行/帧。如果这一帧画面中所有的行是从上到下一行接一行地连续完成的，或者说扫描顺序是1、2、3……525，我们就称这种扫描方式为逐行扫描。

8.什么是隔行？

实际上，普通电视的一帧画面需要由两遍扫描来完成，第一遍只扫描奇数行，即第l、3、5……525行，第二遍扫描则只扫描偶数行，即第2、4、6……524行，这种扫描方式就是隔行扫描。一幅只含奇数行或偶数行的画面称为一“场(Field)”，其中只含奇数行的场称为奇数场或前场 (Top Field)，只含偶数行的场称为偶数场或后场(Bottom Field)。也就是说一个奇数场加上一个偶数场等于一帧(一幅图象)。

电视制式

电视信号的标准简称制式，可以简单地理解为用来实现电视图像或声音信号所采用的一种技术标准。（一个国家或地区播放节目时所采用的特定制度和技术标准）。

基带视频是一种简单的模拟信号，由视频模拟数据和视频同步数据构成，用于接收端正确地显示图像。信号的细节取决于应用的视频标准或者"制式"--NTSC（美国全国电视标准委员会，National Television Standards Committee）、PAL（逐行倒相，Phase Alternate Line）以及SECAM（顺序传送与存储彩色电视系统，法国采用的一种电视制式，SEquential Couleur Avec Memoire）。在PC领域，由于使用的制式不同，存在不兼容的情况。就拿分辨率来说，有的制式每帧有625线（50Hz），有的则每帧只有525线（60 Hz），后者是北美和日本采用的标准，统称为NTSC。

PAL电视标准，每秒25帧，电视扫描线为625线，奇场在前，偶场在后，标准的数字化PAL电视标准分辨率为 720*576, 24比特的色彩位深，画面的宽高比为4：3。

NTSC电视标准，每秒29.97帧（简化为30帧），电视扫描线为525线，偶场在前，奇场在后，标准的数字化NTSC电视标准分辨率为720*486, 24比特的色彩位深，画面的宽高比为4：3。

这里补充一下：

像素比是图像中的一个像素的宽度与高度之比，而帧纵横比则是指图像的一帧的宽度与高度之比。如某些D1/DV NTSC图像的帧纵横比是4：3，但使用方形像素（1.0像素比）的是640×480，使用矩形像素（0.9像素比）的是720×480。DV基本上使用矩形像素，在NTSC视频中是纵向排列的，而在PAL制视频中是横向排列的。使用计算机图形软件制作生成的图像大多使用方形像素。

由于计算机产生的图像的像素比永远是1:1，而由于电视设备所产生的视频图像，就不一定是1:1，如我国的PAL制像素比就是16:15=1.07。同时，PAL制规定画面宽高比为4:3。根据宽高比的定义来推算， PAL制图像分辨率应为768*576，这是在像素为1:1的情况下，可PAL制的分辨率为720*576。因此，实际PAL制图像的像素比是768:720=16:15=1.07。也就是通过把正方形像素“拉长”的方法，保证了画面的4:3的宽高比例。

通常，一个视频信号是由一个视频源生成的，比如摄像机、VCR或者电视调谐器等。为传输图像，视频源首先要生成-个垂直同步信号（V SYNC）。这个信号会重设接收端设备（PC显示器），保征新图像从屏幕的顶部开始显示。发出VSYNC信号之后，视频源接着扫描图像的第一行。完成后，视频源又生成一个水平同步信号，重设接收端，以便从屏幕左侧开始显示下一行。并针对图像的每一行，都要发出一条扫描线，以及一个水平同步脉冲信号。

另外，NTSC标准还规定视频源每秒钟需要发送30幅完整的图像（帧）。假如不作其它处理，闪烁现象会非常严重。为解决这个问题，每帧又被均分为两部分，每部分2 62.5行。一部分全是奇数行，另一部分则全是偶数行。显示的时候，先扫描奇数行，再扫描偶数行，就可以有效地改善图像显示的稳定性，减少闪烁。目前世界上彩色电视主要有三种制式，即N TSC、PAL和SECAM制式，三种制式目前尚无法统一。中国大部分地区使用PAL制式，日本、韩国及东南亚地区与美国等欧美国家使用NTSC制式，俄罗斯则使用SECAM制式。中国内市场上买到的正式进口的DV产品都是PAL制式。制式的区分主要在于其帧频（场频）的不同、分解率的不同、信号带宽以及载频的不同、色彩空间的转换关系不同等等。

具体详细内容，请看http://baike.baidu.com/view/6053.htm。

数字视频

数字视频就是先用摄像机之类的视频捕捉设备，将外界影像的颜色和亮度信息转变为电信号，再记录到储存介质（如录像带）。这要用到模拟视频的数字化。模拟视频的数字化包括不少技术问题，如电视信号具有不同的制式而且采用复合的YUV信号方式，而计算机工作在RGB空间；电视机是隔行扫描，计算机显示器大多逐行扫描；电视图像的分辨率与显示器的分辨率也不尽相同等等。因此，模拟视频的数字化主要包括色彩空间的转换、光栅扫描的转换以及分辨率的统一。

模拟视频一般采用分量数字化方式，先把复合视频信号中的亮度和色度分离，得到YUV或YIQ分量，然后用三个模/数转换器对三个分量分别进行数字化，最后再转换成RGB空间。

采样

根据电视信号的特征，亮度信号的带宽是色度信号带宽的两倍。因此其数字化时可采用幅色采样法，即对信号的色差分量的采样率低于对亮度分量的采样率。用Y:U:V来表示YUV三分量的采样比例，则数字视频的采样格式分别有4:2:0,4:1:1、4:2:2和4:4:4多种。电视图像既是空间的函数，也是时间的函数，而且又是隔行扫描式，所以其采样方式比扫描仪扫描图像的方式要复杂得多。分量采样时采到的是隔行样本点,要把隔行样本组合成逐行样本，然后进行样本点的量化，YUV到RGB色彩空间的转换等等，最后才能得到数字视频数据.

为了在PAL、NTSC和 SECAM电视制式之间确定共同的数字化参数，国家无线电咨询委员会（CCIR）制定了广播级质量的数字电视编码标准，称为CCIR 601标准。在该标准中，对采样频率、采样结构、色彩空间转换等都作了严格的规定，主要有：

1、采样频率为f s=13.5MHz

2、分辨率与帧率

3、根据f s的采样率，在不同的采样格式下计算出数字视频的数据量：

这种未压缩的数字视频数据量对于目前的计算机和网络来说无论是存储或传输都是不现实的，因此在多媒体中应用数字视频的关键问题是数字视频的压缩技术。

SMPTE表示单位

通常用时间码来识别和记录视频数据流中的每一帧，从一段视频的起始帧到终止帧，其间的每一帧都有一个唯一的时间码地址。根据动画和电视工程师协会SMPTE（Society of Motion Picture and Television Engineers）使用的时间码标准，其格式是：小时：分钟：秒：帧，或 hours:minutes:seconds:frames。一段长度为00:02:31:15的视频片段的播放时间为2分钟31秒15帧，如果以每秒30帧的速率播放，则播放时间为2分钟31.5秒。

根据电影、录像和电视工业中使用的帧率的不同，各有其对应的SMPTE标准。由于技术的原因NTSC制式实际使用的帧率是29.97fps而不是30fps，因此在时间码与实际播放时间之间有0.1%的误差。为了解决这个误差问题，设计出丢帧（drop-frame）格式，也即在播放时每分钟要丢2帧（实际上是有两帧不显示而不是从文件中删除），这样可以保证时间码与实际播放时间的一致。与丢帧格式对应的是不丢帧（nondrop-frame）格式，它忽略时间码与实际播放帧之间的误差。

视频压缩

由于视频是连续的静态图像，因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处，但是运动的视频还有其自身的特性，因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念：

1>.有损和无损压缩

视频压缩中有损（Lossy ）和无损（Lossless）的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息，而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩，这样才能达到低数据率的目标。丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的效果一般越差。此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。

2>.帧内和帧间压缩

帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩时各个帧之间没有相互关系，所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。采用帧间（Interframe）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

3>.对称和不对称编码

对称性（symmetric）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中，一般是把视频预先压缩处理好，尔后再播放，因此可以采用不对称（asymmetric）编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。例如，压缩一段三分钟的视频片断可能需要10多分钟的时间，而该片断实时回放时间只有三分钟。

位速说明

位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千比特数”，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍，并占用两倍的空间。（不过在这种情况下，这两种文件听起来没什么两样。原因是什么呢?有些文件格式比其他文件能够更有效地利用数据,64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。

为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是 1150 Kbps，音频必须是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。

格式

MPEG-1

用于传输1．5Mbps数据传输率的数字存储媒体运动图像及其伴音的编码，经过MPEG-1标准压缩后，视频数据压缩率为1/100-1/2 00，音频压缩率为1/6.5。MPEG-1提供每秒30帧352*240分辨率的图像，当使用合适的压缩技术时，具有接近家用视频制式（VHS）录像带的质量。MPEG-1允许超过70分钟的高质量的视频和音频存储在一张CD-ROM盘上。VCD采用的就是MPEG-1的标准，该标准是一个面向家庭电视质量级的视频、音频压缩标准。

MPEG-2

主要针对高清晰度电视（HDTV）的需要，传输速率为10Mbps，与MPEG-1兼容，适用于1.5-60Mbps甚至更高的编码范围。MPEG-2有每秒30帧704*480的分辨率，是MPEG-1播放速度的四倍。它适用于高要求的广播和娱乐应用程序，如：DSS卫星广播和DVD，MPEG-2是家用视频制式（VHS）录像带分辨率的两倍。

DAC

即数/模转装换器，一种将数字信号转换成模拟信号的装置。DAC的位数越高，信号失真就越小。图像也更清晰稳定。

AVI

AVI是将语音和影像同步组合在一起的文件格式。它对视频文件采用了一种有损压缩方式，但压缩比较高，因此尽管面面质量不是太好，但其应用范围仍然非常广泛。AVI支持256色和RLE压缩。AVI信息主要应用在多媒体光盘上，用来保存电视、电影等各种影像信息。

RGB

对一种颜色进行编码的方法统称为“颜色空间”或“色域”。“颜色空间”都可定义成一个固定的数字或变量。RGB（红、绿、蓝）只是众多颜色空间的一种。采用这种编码方法，每种颜色都可用三个变量来表示-红色绿色以及蓝色的强度。记录及显示彩色图像时，R GB是最常见的一种方案。但是，它缺乏与早期黑白显示系统的良好兼容性。因此，件多电子电器厂商普遍采用的做法是，将RGB转换成YUV 颜色空间，以维持兼容，再根据需要换回RGB格式，以便在电脑显示器上显示彩色图形。

YUV

YUV（亦称YCrCb）是被欧洲电视系统所采用的一种颜色编码方法（属于PAL）。YUV主要用于优化彩色视频信号的传输，使其向后兼容老式黑白电视。与RGB视频信号传输相比，它最大的优点在于只需占用极少的带宽（RGB要求三个独立的视频信号同时传输）。其中“Y”表示明亮度（Lumina nce或Luma），也就是灰阶值；而“U”和“V”表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。亮度Y，通过RGB输入信号来创建的，方法是将RGB信号的特定部分叠加到一起。“色度”则定义了颜色的两个方面-色调与饱和度，分别用Cr和Cb来表示。其中，Cr反映了RGB输入信号红色部分R与RGB信号亮度值Y之间的差异。而Cb反映的是RGB输入信号蓝色部分B与RGB信号亮度值Y之同的差异。即Y,R-Y,B-Y.这就是所谓的色差信号，或者叫分量信号。

YIQ

是 NTSC（National Television Standards Committee）电视系统标准。Y 是提供黑白电视及彩色电视的亮度信号（Luminance），即亮度（Brightness），I 代表In-phase，色彩从橙色到青色，Q 代表Quadrature-phase，色彩从紫色到黄绿色。

复合视频和S-Video

NTSC和PAL彩色视频信号是这样构成的--首先有一个基本的黑白视频信号，然后在每个水平同步脉冲之后，加入一个颜色脉冲和一个亮度信号。因为彩色信号是由多种数据“叠加”起来的，故称之为“复合视频”。S -Video则是一种信号质量更高的视频接口，它取消了信号叠加的方法，可有效避免一些无谓的质量损失。它的功能是将RGB三原色和亮度进行分离处理。

Ultrascale

Ultra6cale是Rockwell（洛克威尔）采用的一种扫描转换技术。可对垂直和水平方向的显示进行任意缩放。在电视这样的隔行扫描设备上显示逐行视频时，整个过程本身就己非常麻烦。而采用 UltraScale技木，甚至还能像在电脑显示器上那祥，进行类似的纵横方向自由伸缩。

YUV和YCbCr

YCbCr是DVD、摄像机、数字电视等消费类视频产品中，常用的色彩编码方案。YCbCr 有时会称为 YCC.。Y'CbCr 在模拟分量视频（analog component video）中也常被称为 YPbPr。YCbCr不是一种绝对色彩空间，是YUV压缩和偏移的版本。

正如几何上用坐标空间来描述坐标集合，色彩空间用数学方式来描述颜色集合。常见的3 个基本色彩模型是RGB,CMYK和YUV。

YCbCr 则是在世界数字组织视频标准研制过程中作为ITU - R BT1601 建议的一部分，其实是YUV经过缩放和偏移的翻版。其中Y与YUV 中的Y含义一致,Cb,Cr 同样都指色彩，只是在表示方法上不同而已。YUV 和 Y、Cr、Cb对于数字电路而言：YUV 和 Y、Cr、Cb只是相差128，YUV没有负值，Y、Cr、Cb最高位为符号位，U = Cr + 128；V = Cb +128。

在YUV 家族中，YCbCr 是在计算机系统中应用最多的成员，其应用领域很广泛，JPEG、MPEG均采用此格式。一般人们所讲的YUV大多是指YCbCr。

YUV主要采样格式

人的肉眼对视频的Y分量更敏感，因此在通过对色度分量进行子采样来减少色度分量后，肉眼将察觉不到的图像质量的变化。主要的采样格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。其中YCbCr 4:1:1 比较常用，其含义为：每个点保存一个 8bit 的亮度值（也就是Y值），每 2x2 个点保存一个 Cr 和Cb 值，图像在肉眼中的感觉不会起太大的变化。所以，原来用 RGB(R,G,B 都是 8bit unsigned) 模型，每个点需要 8x3=24 bits.而现在仅需要 8+（8/4）+（8/4）=12bites，平均每个点占12bites。这样就把图像的数据压缩了一半。

4:2:0表示每4个像素有4个亮度分量，2个色度分量 (YYYYCbCr），仅采样奇数扫描线，是便携式视频设备（MPEG-4）以及电视会议（H.263）最常用格式；4：2：2表示每4个像素有4个亮度分量，4个色度分量（YYYYCbCrCbCr），是DVD、数字电视、HDTV 以及其它消费类视频设备的最常用格式；4：4：4表示全像素点阵(YYYYCbCrCbCrCbCrCbCr），用于高质量视频应用、演播室以及专业视频产品。具体采样格式的区别请看http://liufan5005.blog.163.com/blog/static/267101732010024490231/

YCbCr与RGB的相互转换

Y=0.299R+0.587G+0.114B

Cb=0.564(B-Y)

Cr=0.713(R-Y)

R=Y+1.402Cr

G=Y-0.344Cb-0.714Cr

B=Y+1.772Cb

色度学概念：

亮度：

实际调整的是信号的偏置（offset），也就是直流电平。在数字领域里就是加上或减去一个值。然后在屏幕上就能看到亮暗的变化。
比如未经处理的信号范围是0-255，增加亮度40，那就新的范围就是40-255。在模拟电视中不会被截掉，既便高度调到很高，也可以分辨。而在LCD中，超出255会被截掉，导致“白成一片”。

对比度：

图像的对比度黑白分明。对比度越高越好，表示白的越白，黑的越黑。越能体现真实的场景。
动态对比度：通过调制背光或者图像内容来达到更高的对比度值。
在暗的场景的时候如果降低背光，能得到更低的黑对应亮度值。
在亮的场景的亮度值除以此时黑的亮度值，就能得到更高的对比度。

色温：

一般都使用CA-210的仪器来调整色温。比如红色有很多种，怎样知道再现的红色是真正的呢？
色温就是体现颜色是否正确的指标。
在不同亮度等级应该有相同的色温。
在不同的机器上应该有相同的色温。

色调：

在技术上说，色调指的是颜色的波长。
比如说红色，在同样相同的波长下，低饱和度的时候显示出来是棕色。高饱和度下是大红色。高亮度值的时候是粉红色。但是，它们都是相同波长的红光。
饱和度：

指的是色彩的纯度，纯度越高表现越鲜明，纯度较低表现则较黯淡。如果RGB三原色越鲜艳，那么显示器可以表示的颜色范围就越广。提高色彩饱和度的方法是提高背光亮度和液晶的透光度，这需要厂商更高的技术和成本

伽马：

摄像机和显示设备都不是线性的。在显示设备中，在信号幅度小的时候的改变导致的图像上的改变和信号幅度大的时候导致的改变是不相等的。
这种非线性处理就称作伽马。一般采用2.2系数。

伽马矫正：

在显示的时候，纯属的GRB信号必须经过伽马校正后在非线性的显示设备中才能得到最终纯属的图像显示。
所有CRT的伽马系数是固定的。
而平板的伽马系数可能因为不同公司的产品而不同。