学习笔记:音频音质

来源:互联网 发布:jquery遍历json 编辑:程序博客网 时间:2024/05/17 04:00

参考自网络上的一篇文章 音频音质.pdf

 

16-bit44.1kHz的数字音频系统,从理论上来讲,可以提供0Hz22.05kHz的带宽和96dB的动态范围。那么,为什么经常会听到说“这种数字音频格式无法满足人耳的听音需要,无法真实地再现原有的声音”呢?他们这些人究竟感觉到了什么与众不同的东西呢?

本篇文章主要针对这个问题以浅显易懂的语言进行分析和解释,下面是从文章中摘取的相关知识。

 

1.名词解释

 

·        带宽 即指频率带的范围。通常,人类听觉的带宽为2020,000 Hz

·        动态范围 则是指音频系统所能够提供的音量最大的声音与音量最小的声音之间差距。

·        信噪比 是指通常的工作电平或是名义上的工作电平与噪声电平之比。这个指标通常都要小于动态范围的值。

 

2.模/数转换

 

/数转换器(A/D)的工作是按照一定的频率(采样率)给声波拍下许多个"快照"(即进行采样),记录下了原始模拟声波的某一时刻的电压值,并对其进行量化。

 

量化精度的bit数目直接决定了采用多少个"台阶"来表示声波振幅的范围(即动态范围)。每增加一个bit,表示声波振幅的台阶数就要翻一番,并且增加6 dB的动态范围。16-bit能够提供65,536个台阶,即96dB;而20-bit可以提供1,048,576个台阶,对应120dB24-bit可以提供多达16,777,216个台阶,对应144dB

 

bit数目越多,量化的精度就越高,这并不意味着系统可以回放更大的声音。动态范围增大表示系统对于轻微信号的再现更加真实。当使用16-bit的量化精度时,从最大音量(全码)到音量为零(各个位上均为零)之间的动态范围为96dB。如果增加bit的数目,那么就可以表现出更加轻柔的声音,因为这提高了系统对低电平信号的分辨率。

 

在数字音频系统内部使用高精度的数字信号处理芯片可以降低计算所带来的误 差,采用的bit数目越多,这个误差越小。这也正是目前市场上销售的所有数字音频系统内部都采用高精度的数字信号处理芯片的原因。

 

在数字音频系统中进行录音时,要尽量录制较大的音量电平,这样才能够最大限度地提升输入电平的量化精度。这样解释:当数字音频系统中的声音音量较小时,这时声波的振幅只用到了很少的几节台阶,如果将音量电平提高,则它将要用到的台阶数目就要增多,也就提高了实际的量化精度。

 

在实际工作中,模数转换器不可能完全达到理论上所得到的精度。例如,16-bit的转换器在理论上可以得到96dB的动态范围,但是由于设备自身不可避免要存在一定的噪声,这将使得动态范围损失36 dB,于是就等于对于小音量信号的分辨精度下降了1-bit。这样一来,我们就只剩下15-bit了。

 

如果真想在模/数转换器的输出端得到16-bit精度的信号,那么至少应该以18-bit来进行采样。为了得到20-bit的精度,必须以 22-bit的精度来进行采样,而要想实现真正24-bit的精度,采样时的量化精度必须达到26甚至是28-bit

 

一台本底噪声为-96dB20-bit/模转换器,在理论上可以实现120dB的动态范围,实际上,由于转换设备本身具有4-bit24dB的噪声电平,使得动态范围简直都要被噪声""光了。

 

采用20-bit24-bit的转换器时其噪声电平的水平大概为-117dB-120dB

 

3. 量化误差

 

关于量化误差:当数字音频系统中所采用的量化bit数目过少,造成系统无法正确地还原出原始音频信号时,就出现了这种误差。音量从大约48dB下降到无声,声音音量的降低将会呈现出颗粒状的降低现象。

 

减少量化误差的方法:抖动处理 (dithering)或是购买具有较高量化精度的设备。

 

抖动处理:当将20- bit的模/数转换器的输出信号录制到16-bitDAT录音机或是CD上时,有一种方法是丢掉最后的4个最不重要的位LSB,实际上这就是直接将低位的数据给截断了。还可以采用抖动处理方式,给16-bit数据中加入随机的噪声数据。这种随机噪声数据采用线性方式,它只对最低位起作用,并且使得声音的变化更加平滑。这种操作就好像是用手抹了一下波形的边缘,这使得声波的轮廓与采用模拟录音带所录制的声音更加相似。

当噪声电平提高时(通常为36dB),低音量的信号就会消失在这种随机的噪声电平信号中,但是不会造成声音音量突变的情况。由于人的听觉对于声音音量的非平滑变化异常敏感,因此量化误差所带来的声音失真其危害性要远大于低电平噪声所带来的失真,可以说,给声音中加入随机噪声数据是一个非常不错的折中方案。甚至还可以通过均衡或是滤波处理,对噪声信号的频率进行控制,使它们处于16kHz以上的频率段,道理是人耳对这一频率段中的声音不十分敏感。

 

4. 采样频率

 

根据奈奎斯特采样定理,为了能够正确地表达一个已知频率的声波,至少应该采用两倍于该频率的采样率来进行采样。如果采样率44,100Hz,那么将可以精确地确定出任何一个22.05 kHz信号上的两个点。

 

混迭:如果进入到模/数转换器的信号包含有高于奈奎斯特频率(奈奎斯特频率等于采样频率的一半)的信息,那么转换器就无法在一个周期内对波形进行两次采样。当这个采样波形信号数据被数/摸转换器重放时,这些不正确的频率信号将会造成混叠现象。举例来说:使用44.1 kHz的采样率,如果一个频率为30kHz的声音信号进入到模/数转换器中,则转换器就没有足够的精度来对这个信号进行精确采样,由于进入系统的声波信号比奈奎斯特频率高7.95 kHz,那么声波中出现信号失真的位置就应该是比奈奎斯特频率低7.95kHz的频率,也就是在14.1kHz频率处。

 

在模/数转换器的前面安装有抗混叠滤波器(可能是安装在模拟电路部分中,如果是过采样转换器,则安装在数字电路部分)以避免混叠现象的发生。这种滤波器的上升沿非常陡峭,它从20kHz频率处开始对声音信号进行限制,到奈奎斯特频率处时将电平降为0,这样得到的带宽为20kHz

 

对于目前所使用的44.1kHz的采样率,前面提及的抗混叠滤波器,对于稳态信号(正弦)来说是非常精确的。但是真正的音乐不会是简单的正弦波,音频信号无时无刻不在变化着,音量、音色和基本的波形包络都会随着时间轴发生改变。抗混叠滤波器会在通过其的音乐信号中加入纹波信号和尖峰信号,这主要是因为滤波器的斜率过于陡峭了。此时会感觉声音中有人工加工过的痕迹,还会在声音中听到有不自然的振铃声。

 

如果采用两倍的采样频率,就可以让滤波器下降的斜坡延长一倍,使得其对信号的加工更加"温和",同时也得到了更高的奈奎斯特频率。此时的主要收获并不在于这些额外增加的频率范围,当然的确也从中得到了一些好处。事实上关键在于,采用较高的采样频率,会使得我们在通过滤波避免信号产生混叠现象时,不给音频信号带来更多的失真。

 

另外一个有意义的结果就是声像定位。较高的采样率可以解决当前数字音频领域中空间定位和立体声声场方面的问题。我们确定持续音音源的位置是通过两耳接收到不同的声音音量来实现的。使用两只扬声器可以很容易地达到这种要求。而在确定瞬时声音音源的位置时,则是通过当声音到达我们的每一只耳朵的延迟音来实现的(瞬时音由于存在时间很短,不足以让双耳辨认各自所接收到的音量的不同)。因此由两只音箱发出的瞬时声音将会同时达到双耳,从而导致音源位于两只音箱中央的感觉。

 

心理声学中有一条概念叫做"刚刚可以察觉到的区别"。这是我们所能够察觉到的 最微小的音色变化,它的量级大约为6微秒。(在技术领域,这种现象被称为Haas effect,即哈斯效应,而量级大致为310毫秒,我们可以通过它来改变立体声声场的范围。)当我们提高两路信号之间的延时时间时,我们将可以对声音在立体声声场中的位置进行控制。为了可以精确地定位一个瞬时信号源,例如一个鼓的声音或是钢琴音头的声音,我们需要对音色进行非常精确地控制。

 

但是非常遗憾,在每秒钟进行44,100次采样的情况下,采样与采样之间的时间是上面所说的"刚刚可以察觉到的区别"时间的4倍。这将导致时间上的拖拍和定位上的失误。这也是你经常会听到人们抱怨说数字音频系统在结像力方面不如模拟设备的一个原因,而就目前所采用的采样率来说,要想改变这种现状是不可能的。将现有的采样频率加倍对于解决这一问题将会大有帮助。当然,将采样率提到到原来的4倍将会带来更佳的效果!

 

采用较高的采样频率还会带来其他的好处,例如在进行抖动处理时可以得到更好的效果。这时我们在人耳的可闻频率上方增加的频率范围可以用来作为抖动噪声,即我们可以将这些随机噪声全部安排到人耳的可闻范围以外去,这的确是非常有效的。

 

5.总结

本篇文章介绍了影响音频音质的相关因素,而对于开篇的问题并没有直接回答。本人很久以来对为何要采样很高的采样率(比如176.4kHz)心存疑问,我是指正常采样和回放时的采样率,过采样不算的,通过本文,有如下理解:从量化的角度来看,当然是精度越高越好,16bit对于发烧友来讲确实低了。从采样率的角度来看,高的采样率原来是解决当前数字音频领域中空间定位和立体声声场方面的问题的。