AMR-NB 与 AMR-WB 语音编码标准技术的对比研究

来源：互联网发布：天猫化妆品销售数据编辑：程序博客网时间：2024/05/18 08:41

自适应多速率窄带语音编码 AMR-NB(Adaptive Multi Rate-Narrow Band Speech Codec)算法是由第三代伙伴计划(3rdGeneration Partnership Project,简称 3GPP)于 1999年 8月制订的基于码激励线性预测(CodeExcited Linear Prediction,CELP)算法的语音压缩编码器标准[1],主要用于第三代移动通信W-CDMA系统中。AMR-NB 支持八种速率模式,分别为:模式0(4.75kbit/s)、模式1(5.15kbit/s)、模式2(5.90kbit/s)、模式3(6.70kbit/s)、模式4(7.40kbit/s)、模式 5(7.95kbit/s)、模式 6(10.2kbit/s)、模式 7(12.2kbit/s),其以更加智能的方式解决信源和信道编码的速率分配问题,根据无线信道和传输状况来自适应地选择一种编码模式进行传输,使得无线资源的配置与利用更加灵活有效。

在 2000年 12月,3GPP 选择自适应多速率宽带语音编码AMR-WB[2] (Adaptive Multi-RateWideband Speech Codec)算法作为第三代移动通信系统使用的语音编解码算法。AMR-WB音频带宽在 50Hz-7000Hz,相对于 200Hz-3400Hz为宽带,支持九种速率模式,分别为:模式0(6.60kbit/s)、模式 1(8.85kbit/s)、模式 2 (12.65kbit/s)、模式 3(14.25kbit/s)、模式 4(15.85kbit/s)、模式5(18.25kbit/s)、模式 6(19.85kbit/s)、模式 7(23.05kbit/s)和模式 8(23.85kbit/s)[3]。在AMR-WB中,采用的是代数码激励线性预测编码(AlgebraicCode ExcitedLinear Prediction,简称 ACELP),其已被 3GPP选定为 GSM和 3G无线 W-CDMA的宽带编码器,并将应用于 IP 电话、第三代移动通信、ISDN 宽带电话、ISDN 可视电话和电视会议等领域,这标志着无线和有线业务第一次采用同样的编码器。

2.线性预测分析的比较2.1帧长及 LP次数的比较

AMR-NB 和 AMR-WB编码帧长都是 20ms,子帧长度都是 5ms,输入都是 16 bit PCM量化的语音信号,两种标准的线谱对(LineSpectrum Pairs, LSP)参数所表征的信息基本上一致。AMR-NB 编码输入为8 kHz采样频率,线性预测(LinearPrediction,简称 LP)阶数为10,AMR-WB的编码输入为 16kHz采样频率,LP 阶数为 16。AMR-WB 编码器每帧进行1次 LP分析。AMR-NB 编码器在 12.2 Kb/s 模式下每帧进行 2次 LP分析,即每 10 ms进行1 次LP 分析;在其他7 种速率模式下每帧进行1 次LPC 分析,即每20ms 进行1 次LP分析。

线性预测分析就是用线性预测器对语音信号作短时分析,在AMR-WB中采用了 16阶线性预测,与窄带 AMR-NB 算法中的 10阶线性预测模型相比,可以更好的反应宽带语音信号高频部分的共振峰信息。图1 和图 2分别是 16阶线性预测模型和 10 阶线性预测模型用于宽带语音信号的谱估计包络,从图上可以看到10 阶线性预测分析只能得到 3000Hz以下的共振峰信息,高频部分的共振信息丢失了,而16 阶线性预测分析则可以获得高频部分的共振峰信息。

图 1 16阶线性预测模型用于宽带语音信号的谱估计包络
Figure1 Spectral Envelope Estimate of WidebandSpeech Using 16th-Order Autocorrelation Method

2.2加窗的比较

图 2 10阶线性预测模型用于宽带语音信号的谱估计包络
Figure2 Spectral Envelope Estimate of WidebandSpeech Using 10th-Order Autocorrelation Method

在 AMR-WB中每个语音帧都要进行一次线性预测分析,分析采用自相关的方法和30ms的不对称窗。在LP 分析中有一个 5ms的提前,对应于一个 5ms 的额外算法延迟。LP 分析窗中包含过去帧的64 个样点,当前帧的 256个样点和下一帧的 64 个样点。

第 n帧(4×5 ms)图3 加窗帧结构示意图

Figure3 The Diagram of Windowed Frame Structure

在 LP分析中,AMR-WB 使用的是不对称窗函数,它由两部分组成:第一部分是一个半哈明窗,第二部分是四分之一周期的哈明-余弦函数,该窗的表达式是:

窗函数

⎧0.54−0.46cos⎛2πn⎞,

n=0,...,L−11

⎪ ⎜2L−1⎟w(n)=⎪⎝1 ⎠

(1)

⎨⎛2π (n− L) ⎞

⎪cos1,
⎪⎜4L−1⎟ 112⎩⎝2⎠

其中 L1=256,L2=128。

n=L,..,L+L −1

AMR-NB 的 LP加窗分为 2种情况:
(1)在 12.2 Kb/s模式下,分别采用不对称窗函数 wI(n)和 wII(n)。其中 wI(n)窗函

数是

n=L(I),..,L(I)+L(I) −11 1 2

L(I)=160,L(I)=80.而w(n)和AMR-WB相同,其中L(II)=232,L(II)=8.12II 12

⎧0.54−0.46cos⎛πn⎞,n=0,...,L(I)−1⎪⎜2L(I)−1⎟1

w(n)=⎪⎝1 ⎠(2)

⎨⎛π (n− L(I)) ⎞⎪0.54+0.46cos1,

⎜4L(I)−1⎟⎩⎝2⎠

⎪

(2)在除了 12.2 Kb/s之外的其他 7种模式下,由于此时 AMR-NB 也与 AMR-WB一LL

样采用 5ms额外延迟,AMR-NB 的 LP 分析窗与AMR-WB完全相同,其中 1=200,2=40。3.高频带增益

对于 AMR-WB而言,为了计算 23.85kb/s模式的高通增益,输入语音要通过 6400-7000Hz的带通滤波器得到高频带信号,高通增益gHB通过下面的式子得到:

63 63
gHB= (s(i))2(s(i))2(3)

∑i=0

HB2

HB
这里sHB (i)是带通滤波的输入信号,sHB2 (i)是高频合成信号。而相比较下AMR-NB没

有高频带增益,AMR-WB 使摩擦音更易于区分,从而增加了可懂度和清晰度。4.语音质量性能测试比较

从 TIMIT标准英语语音数据库中选取 40 句标准语句(20 句男声,20 句女声),用ITU-T提供的AMR-NB和 AMR-WB官方代码分别对选取的标准语音进行编解码仿真,对两种算法包含的所有编码模式的语音质量都进行了PESQ 测试,测试结果如表 1和表 2所示。实验时所用男声和女声均选自TIMIT数据库,客观评价标准采用 ITU–T P.862.2制定的wideband--Perceptual Evaluation of Speech Quality ( w-PESQ )[4]。

表 1 AMR-WB平均 w-PESQ值
Tab.1 the average value of w-PES of AMR-WB

表 2 AMR-NB平均 w-PESQ值
Tab.2 the average value of w-PES of AMR-NB

AMR-WB

码率(kb/s)类别

23.85

23.05

19.85

18.25

15.85

14.25

12.65

8.85

6.60

均值

男声 PESQ值

4.28

4.26

4.25

4.21

4.18

4.16

3.91

3.78

4.146

女声 PESQ值

4.17

4.14

4.12

4.09

4.06

4.04

3.80

3.58

4.019

平均 PESQ值

4.225

4.2

4.185

4.15

4.12

4.1

3.855

3.68

4.082

AMR-NB

码率(kb/s)类别

12.2

10.2

7.95

7.40

6.70

5.90

5.15

4.75

均值

男声 PESQ值

3.26

3.30

3.39

3.48

3.46

3.56

3.57

3.58

3.45

女声 PESQ值

3.03

3.02

3.16

3.24

3.26

3.22

3.16

平均 PESQ值

3.15

3.16

3.28

3.32

3.35

3.40

3.42

3.40

3.31

表 3 AMR-NB和 AMR-WB的计算复杂度比较表(单位:加权百万次操作每秒)Table 3 computational complexity comparison table of AMR-NB and AMR-WB (unit:WMOPS)

类别AMR-NB AMR-WB语音编码14.2 31.1语音解码2.6 7.8

从表 1和表 2中可以看出,AMR-NB 和 AMR-WB 的合成语音质量随着码率升高而增加,AMR-NB的合成语音质量比 AMR-WB 的要差。从表 3中可以看出,AMR-NB 在计算法复杂度等方面都高于AMR-WB。

从表 1中可以看出,男声 12.65kbit/s 以上模式的 MOS分值都超过了 4.0,女生 12.65kbit/s以上模式的MOS 分值近似为 4.0,可见 12.65kbit/s及其以上的模式都可以提供高质量的宽带语音。8.85 和6.60kbit/s两种模式,MOS 分值也都在 3.4 以上,虽然话音质量稍差,也基本上达到了通信质量标准。AMR-WB 编码算法由于存在多种速率模式和对宽带语音信号处理的要求,算法较为复杂,但编码性能良好,已经达到了设计要求,是一种高品质的语音编码算法。

原始语音

0 1000 2000 3000 4000 5000

4.75kb/s码率下合成语音

0 1000 2000 3000 4000 5000

6.70kb/s码率下合成语音

0 1000 2000 3000 4000 5000

12.2kb/s码率下合成语音

0 1000 2000 3000 4000 5000

0.02

0.0200-0.02

-0.020

0.020-0.02

00.02

-0.020

0.020-0.02

1000 2000 3000 4000 5000 6000 7000

6.60kb/s码率下合成语音

1000 2000 3000 4000 5000 6000 7000

8.85kb/s码率下合成语音

1000 2000 3000 4000 5000 6000 7000

12.65kb/s码率下合成语音

1000 2000 3000 4000 5000 6000 7000

0.020-0.02

6000 7000

图4 宽带原始语音和在6.60kb/s,8.85kb/s,12.65kb/s速率下 AMR-WB解码后的合成语音Figure 4 broadband original voice and the synthesizedspeeches of AMR-WB decoding under 6.60kb/s,8.85kb/s,12.65kb/s rates

图 5窄带原始语音和在 4.75kb/s,6.70kb/s,12.2kb/s速率下AMR-NB解码后的合成语音
Figure 4 narrow original voice and the synthesizedspeeches of AMR-NB decoding under 4.75kb/s,6.70kb/s,12.2kb/s rates

对 AMR-WB解码后各模式的合成语音进行主观听觉测试,与宽带原始语音文件进行对比发现,6.6kbit/s 模式的解码合成语音失真较为明显,8.85kbit/s 模式的解码合成语音在听觉上有少许失真。12.65kbit/s 以上的模式在听觉上已经难以分辨与原始语音的区别,而且听觉感受性和自然度都比较好。相比较之下,对于AMR-NB而言,在与窄带原始语音对比发现,所有模式的失真都比较明显,但是可以听懂。

4.结论

AMR-NB 广泛应用于移动通信领域,代表了 CELP 算法的较高水平,通过自适应地调整编码速率和信道模式,提供了不同无线传输环境下不同容错率的编码器,从而使得通信系统中语音质量和系统容量的折衷更加平衡,同时也满足了系统可能提出的特殊要求,提高了系统的鲁棒性,使得无线资源的利用更加高效。与AMR-NB 相比较,AMR-WB运用ACELP在主观评价上可以获得较高质量的合成语音。与窄带电话语音相比,低频增加的50Hz-200Hz

使话音更自然、更舒适、更有现场感,高频增加的3400Hz-7000Hz使摩擦音更易于区分,从而增加了可懂度和清晰度,这是第一次有一种编解码标准同时被选作有线和无线通用的标准在未来一定会有广泛应用。