多媒体编解码

来源：互联网发布：上古卷轴5优化工具编辑：程序博客网时间：2024/06/06 02:16

概述

视频：H264, MPEG-4, WebM/VP8, Theora等

音频：Speex, AAC, Ogg/Vorbis等。

比较成熟的：视频（H264），音频（AAC）

开源的：视频（WebM/VP8），音频（Ogg/Vorbis）

x264进行H264编码，libfaac进行aac编码。

H.26X

所谓视频编码方式就是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件的方式。

视频流传输中最为重要的编解码标准有国际电联的 H.261、H.263、H.264、H.265 ，运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准，此外在互联网上被广泛应用的还有Real-Networks的RealVideo、微软公司的WMV以及Apple公司的QuickTime等。

H.264有很多优点，编码后生成的视频文件，体积较小，画质也不错。蓝光技术（Blu-ray）就采用这种格式，眼下几乎所有的高清摄像机----不管民用的还是商业的----都使用它。互联网上的在线视频播放，采用它的比例也正在不断上升。

不过，H.264是一种专利视频格式。它的专利被一家MPEG-LA公司控制。

目前为了推广H.264，MPEG-LA规定，只要你的视频用于互联网上的免费播放，就可以无偿获得使用许可证。这就是为什么YouTube可以免费使用MPEG-LA许可证的原因。而像Netflix这样的付费收看公司，就得不到这种优惠了。

高清发展愈演强烈，H.264也遇到了瓶颈，以编码单位来说，每个宏块(marcoblock，MB)大小都是固定的16×16像素。

H.265采用了从64×64~8×8像素的自适应块划分，并基于这种块划分结构采用一系列自适应的预测和变换等编码技术。编码单位可以选择从最小的8×8到最大的64×64。信息量不多的区域(颜色变化不明显，比如天空的灰色部分)划分的宏块较大，编码后的码字较少，而细节多的地方(细节变化较多，比如大楼部分)划分的宏块就相应的小和多一些，编码后的码字较多，这样就相当于对图像进行了有重点的编码，从而降低了整体的码率，编码效率就相应提高了。这个过程有点像"感兴趣区域编码"，H.265自动针对重要的更多关键细节的部分进行增强划块，无更多关键细节的部分进行简单划块。

一秒24桢是一个全动画，实际上动作流畅是在30桢以上，而完全流畅则是60桢。

动画片发源于美国，最早是在电影院放映的。电影每秒24格，所以，动画也是按照这个制式来的，每秒24帧。这就要求制作者要根据时长，每一秒动画就画出24副画来。

后来动画片引入日本，日本动漫界的元老手冢治虫先生，认为每秒24格太费人工，当时的日本根本承受不起。所以他制定下了一个新的标准，动画片每秒8格（平均），也叫一拍三。

每秒8格，就比美国动画节省了三分之二的成本。降低了日本动画业的从业标准，这是日本动画业能迎头赶上的原因。

VGA采集卡高清视频1920*1080视频，1分钟有多少大容量？

这个要看压缩比率了。如果是不压缩，按每秒30帧来说，1分钟是: 1920*1080（分辨率）*3（VGA每个像素3字节，每字节代表一种颜色）*30（每秒帧数）*60（总秒数）约10GB，但一般来说肯定是压缩的，好的编码压缩比还是比较高的，比如H.264，所说，1秒2M左右的样子，1分钟的话100M左右，再小的话画质就会有明显的下降。

视频采集一个重要的因素就是码率，单位：kbps。

VP8

之前On2(开发VP8的公司，后被谷歌收购)在推出VP6和VP7时就以吹嘘自夸而著称，后来这两个标准都成为笑谈，这次的VP8也不例外，On2根本没有履行"在H264一半的码率下实现两倍的画质(即4倍的压缩率)"的诺言，相反它连超过H264这点都做不到。

H.264有众多硬件支持（硬件加速），而VP8只能靠软解码。

https://github.com/webmproject/libvpx/

MPEG-4

......

AAC

AAC(Advanced Audio Coding，先进音频编码)

出现于1997年，基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony（新力）等公司共同开发，目的是取代MP3格式。和MP3比起来，它的音质比较好，也能够节省大约30%的储存空间与带宽。

AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。它可同时传送16套节目，每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。

AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48个主要音频通道，16个低频增强通道，16个集成数据流, 16个配音，16种编排。

PCMU和PCMA

PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

PCMU andPCMA都能够达到CD音质，但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低，可以选用低比特速率的编码方法，如G.723或G.729，这两种编码的方法也能达到传统长途电话的音质，但是需要很少的带宽（G723需要5.3/6.3kbps，

G729需要8kbps）。如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722(64kbps)，这可以提供有高保真度的音质。

MP3

P3是一种音频压缩技术，其全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。

MP3是利用人耳对高频声音信号不敏感的特性，将时域波形信号转换成频域信号，并划分成多个频段，对不同的频段使用不同的压缩率，对高频加大压缩比（甚至忽略信号）对低频信号使用小压缩比，保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音，只保留能听到的低频部分，从而将声音用1∶10甚至1∶12的压缩率压缩。由于这种压缩方式的全称叫MPEG Audio Player3，所以人们把它简称为MP3。

0 0