语音增强噪声类型及评估方法

来源：互联网发布：淘宝永久模板在哪里买编辑：程序博客网时间：2024/05/16 07:55

语音增强属于数字信号处理中的语音信号处理领域。

1、简介

1.1 噪声类型

语音增强的目的是提高语音信号的质量或可懂度，减少失真。这里主要介绍单麦克风信号语音增强，常见的失真有：

(a) 加性声学噪声：就是麦克风在录制语音时同时录制进去的背景环境声音

(b) 声学混响：多径反射引起的叠加效应

(d) 非线性失真：比如信号输入时不适当的增益

(e) 加性宽带电子噪声

(f) 电器干扰

(g) 编码失真：比如压缩编码

(h) 录音仪器引起的失真：麦克风频率响应不足

1.2 语音增强的目的

1）提高语音可懂度，让人类更容易听懂

2）提高语音质量，让人耳更容易接受

3）修饰语音，提高自动语音或说话人识别系统性能

4）修饰语音，让语音存储或传输编码更有效

大多数文献主要针对后面3点，语音质量和语音可懂度是有区别的，语音质量提高了，语音可懂度可能会降低。而提高语音识别系统的性能又有所不同，因为这些系统忽略了许多人类听觉感知的元素，一般用一些频谱特征来代表语音信号。

2、评估方法

2.1 语音增强系统评估方法

主要以语音质量和语音可懂度为主，分为主观和客观方法：

主观：以人耳判断为主，分为绝对得分法：对单一信号进行打分；倾向法：听多个信号，感觉哪个较好。

客观：通过分析一些指标来判断，又分两类，一类需要原始音频和处理后的音频，另一类只需要处理后的音频

2.2 语音可懂度

主观方法：语音测试；单词可懂度（诊断押韵测试Diagnostic Rhyme Test，DRT）；句子可懂度（噪声下听力测试，Hearing in Noise Test，HINT）

客观方法：语音可懂度指数；PESQ

不是所有因素组合可以组成单词，也不是所有单词组合可以组成有意义的句子。

3、增强方法

3.1 语音增强

可以将信号退化分成3类：

1）在声学和电子学中可能产生与期望信号不相干的加性噪声，其影响了声音可懂度和听觉质量，极端情况下，甚至掩盖了期望语音。对于一些加性噪声，其频谱特征是平稳的或随时间缓慢变换的，比如嗡嗡声、功放噪声和一些环境噪声。谱减法和单信道自适应滤波器成功应用于这些平稳噪声。还有一些加性噪声是间歇的或高度非平稳的，这些噪声的鉴定和消除效果还不理想，比如媒体干扰、非期望语音干扰和一些电子干扰。

2）卷积影响一般是由混响、反射等造成的，其与加性噪声的区别是：加性噪声和期望语音时不相干的，而卷积噪声和期望语音是相干的。麦克风的位置、麦克风的特性和CODEC局限性可能引起带宽限制和不均匀的频谱响应。对卷积噪声的处理效果不是很好。

3）非线性失真频繁出现于幅度限制、麦克风功放等。这类噪声也比较难处理。

3.2 按帧处理

x(n;l) = w(n)x(n+l*M)

其中n=0；...；N-1，w(n)是窗函数，M是帧移，N是窗长，是频率分辨率和时间分辨率的折衷，一般是10~30ms，对应50Hz左右的频率分辨率。为了减小窗函数的影响，窗函数的选择和帧移选择很重要，可以用汉宁窗，半帧长的帧移。

3.3 谱减法

1979年提出，广泛用于减少加性噪声。只要在频谱上乘以一个增益系数。谱减法如果减得不够，会有噪声残留，如果减得过多，又会造成语音失真。

0 0