音频基础知识

来源：互联网发布：淘宝老店新开没流量编辑：程序博客网时间：2024/04/18 16:42

一. 音频基础知识

1. 音频编解码原理

数字音频的出现，是为了满足复制、存储、传输的需求，音频信号的数据量对于进行传输或存储形成巨大的压力，音频信号的压缩是在保证一定声音质量的条件下，尽可能以最小的数据率来表达和传送声音信息。信号压缩过程是对采样、量化后的原始数字音频信号流运用适，当的数字信号处理技术进行信号数据的处理，将音频信号中去除对人们感受信息影响可以忽略的成分，仅仅对有用的那部分音频信号，进行编排，从而降低了参与编码的数据量。

数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。

1.1时域冗余

A．幅度分布的非均匀性：信号的量化比特分布是针对信号的整个动态范围而设定的，对于小幅度信号而言，大量的比特数据位被闲置。

B．样值间的相关性:声音信号是一个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本身相比，数据量要小的多。

C．信号周期的相关性:声音信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作用，即特征频率，这些特征频率会以一定的周期反复出现，周期之间具有相关关系。

D．长时自我相关性:声音信息序列的样值、周期相关性，在一个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很高的相关系数。

E．静音:声音信息中的停顿间歇，无论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。

1.2 频域冗余

A．长时功率谱密度的非均匀性：任何一种声音信息，在相当长的时间间隔内，功率分布在低频部分大于高频部分，功率谱具有明显的非平坦性，对于给定的频段而言，存在相应的冗余。

B．语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值，而在另一些频率上出现谷值，这些共振峰频率具有较大的能量，由它们决定了不同的语音特征，整个语言的功率谱以基音频率为基础，形成了向高次谐波递减的结构。

1.3 听觉冗余

根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型，将通过听觉领悟信息的复杂过程，包括接受信息，识别判断和理解信号内容等几个层次的心理活动，形成相应的连觉和意境，由此构成声音信息集合中的所以数据，并非对人耳辨别声音的强度、音调、方位都产生作用，形成听觉冗余，由听觉冗余引出了降低数据率，实现更高效率的数字音频传输的可能。

2. 常见音频编解码标准

2.1 AAC(Advanced Audio Codin)

AAC于1997年形成国际标准ISO 13818-7。先进音频编码AAC开发成功，成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。

在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2 AAC。换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不同的工具。

类型：Audio

制定者：MPEG

所需频宽：96-128 kbps

优点：支持多种音频声道组合，提供优质的音质。

应用领域：voip

特性：AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。它可同时传送16套节目，每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48 个主要音频通道，16 个低频增强通道，16 个集成数据流, 16 个配音，16 种编排。

2.2 PCM编码(原始数字音频信号流)

类型：Audio

制定者：ITU-T

所需频宽：1411.2 Kbps

特性：音源信息完整，但冗余度过大。

优点：音源信息保存完整,音质好。

缺点：信息量大，体积大，冗余度过大。

2.3 WMA(Windows Media Audio)

类型：Audio

制定者：微软公司

所需频宽：320～112kbps（压缩10～12倍）

优点：当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。

缺点：当Bitrate大于128K时，WMA音质损失过大。WMA标准不开放，由微软掌握。

特性：当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k是WMA一个槛，当Bitrate再往上提升时，不会有太多的音质改变。

2.4 PCMU(G.711U)

类型：Audio

制定者：ITU-T

所需频宽：64Kbps(90.4)

特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优。

缺点：占用的带宽较高。

2.5 PCMA(G.711A)

类型：Audio

制定者：ITU-T

所需频宽：64Kbps(90.4)

特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优。

缺点：占用的带宽较高。

2.6 MP3

MP3（CBR、VBR、ABR） MP3应该算目前使用用户最多的有损压缩数字音

频格式了。它的全称MPEG(MPEGMoving Picture Experts Group) Audio Layer-3，

1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善，它更像一个编码标准框架，留待人们去完善。早期的MP3编码采用的的是固定编码率的方式（CBR ），我们常看到的128KBPS，就是代表它是以128KBPS固定数据速率编码——你可以提高这个编码率，最高可以到320KBPS，音质会更好，自然，文件的体积会相应增大。因为MP3的编码方式是开放的，你可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理，所以，很快由Xing公司推出可变编码率的压缩方式（VBR）。它的原理就是利用将一首歌的复杂部分用高 bitrate 编码，简单部分用低 bitrate 编码，通过这种方式，进一步取得质量和体积的统一。当然，早期的Xing 编码器的 VBR 算法很差，音质与 CBR （固定码率）相去甚远。但是，这种算法指明了一种方向，其他开发者纷纷推出自己的VBR算法，使得效果一直在改进。目前公认比较好的首推 LAME，它完美地实现了 VBR 算法，而且它是是完全免费的软件，并且由爱好者组成的开发团队一直在不断的发展完善。

3. 音频采样

通过将声波波形转换成一连串的二进制数据来再现原始声音，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，这就是音频采集。

4. 常见音频参数

4.1 采样位数

采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。采集卡的位数客观地反映了数字声音信号对输入声音信号描述的准确程度。市面上常用的采集卡位数如下：

8位代表2的8次方--256

16位则代表2的16次方--64K

4.2 位速说明

位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用

―128–Kbps MP3‖ 或―64–Kbps WMA‖进行描述的情形。Kbps 表示―每秒千字节数‖，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是64–Kbps WMA 文件的两倍，并占用两倍的空间。（不过在这种情况下，这两种文件听起来没什么两样。原因是什么呢？有些文件格式比其他文件能够更有效地利用数据，64–Kbps WMA 文件的音质与128–Kbps MP3 的音质相同。）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。

为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是1150 Kbps，音频必须是 224 Kbps。典型的206 MHz Pocket PC 支持的MPEG 视频可达到400 Kbps—超过这个限度播放时就会出现异常。位速还有三种不同形式的：

VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式；

ABR（Average Bitrate）平均比特率是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高。

4.3 音频采样级别（音频采样频率）

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自

然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。

4.4 音频采样频率

音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值；5kHz的采样率仅能达到人们讲话的声音质量；11kHz的采样率是播放小段声音的最低标准，是CD音质的四分之一；22kHz采样率的声音可以达到CD音质的一半，目前大多数网站都选用这样的采样率；44kHz的采样率是标准的CD音质，可以达到很好的听觉效果。

5.影响音频质量的因素

比特率、数据压缩率、压缩技术。