语音增强噪声类型及评估方法
来源:互联网 发布:淘宝永久模板在哪里买 编辑:程序博客网 时间:2024/05/16 07:55
语音增强属于数字信号处理中的语音信号处理领域。
1、简介
1.1 噪声类型
语音增强的目的是提高语音信号的质量或可懂度,减少失真。这里主要介绍单麦克风信号语音增强,常见的失真有:
(a) 加性声学噪声:就是麦克风在录制语音时同时录制进去的背景环境声音
(b) 声学混响:多径反射引起的叠加效应
(c) 卷积信道效应:导致不均匀或带宽限制响应,为了去除信道脉冲响应,做信道均衡时对通信信道没有有效建模
(d) 非线性失真:比如信号输入时不适当的增益
(e) 加性宽带电子噪声
(f) 电器干扰
(g) 编码失真:比如压缩编码
(h) 录音仪器引起的失真:麦克风频率响应不足
1.2 语音增强的目的
1)提高语音可懂度,让人类更容易听懂
2)提高语音质量,让人耳更容易接受
3)修饰语音,提高自动语音或说话人识别系统性能
4)修饰语音,让语音存储或传输编码更有效
大多数文献主要针对后面3点,语音质量和语音可懂度是有区别的,语音质量提高了,语音可懂度可能会降低。而提高语音识别系统的性能又有所不同,因为这些系统忽略了许多人类听觉感知的元素,一般用一些频谱特征来代表语音信号。
2、评估方法
2.1 语音增强系统评估方法
主要以语音质量和语音可懂度为主,分为主观和客观方法:
主观:以人耳判断为主,分为绝对得分法:对单一信号进行打分;倾向法:听多个信号,感觉哪个较好。
客观:通过分析一些指标来判断,又分两类,一类需要原始音频和处理后的音频,另一类只需要处理后的音频
2.2 语音可懂度
主观方法:语音测试;单词可懂度(诊断押韵测试Diagnostic Rhyme Test,DRT);句子可懂度(噪声下听力测试,Hearing in Noise Test,HINT)
客观方法:语音可懂度指数;PESQ
不是所有因素组合可以组成单词,也不是所有单词组合可以组成有意义的句子。
3、增强方法
3.1 语音增强
可以将信号退化分成3类:
1)在声学和电子学中可能产生与期望信号不相干的加性噪声,其影响了声音可懂度和听觉质量,极端情况下,甚至掩盖了期望语音。对于一些加性噪声,其频谱特征是平稳的或随时间缓慢变换的,比如嗡嗡声、功放噪声和一些环境噪声。谱减法和单信道自适应滤波器成功应用于这些平稳噪声。还有一些加性噪声是间歇的或高度非平稳的,这些噪声的鉴定和消除效果还不理想,比如媒体干扰、非期望语音干扰和一些电子干扰。
2)卷积影响一般是由混响、反射等造成的,其与加性噪声的区别是:加性噪声和期望语音时不相干的,而卷积噪声和期望语音是相干的。麦克风的位置、麦克风的特性和CODEC局限性可能引起带宽限制和不均匀的频谱响应。对卷积噪声的处理效果不是很好。
3)非线性失真频繁出现于幅度限制、麦克风功放等。这类噪声也比较难处理。
3.2 按帧处理
x(n;l) = w(n)x(n+l*M)
其中n=0;...;N-1,w(n)是窗函数,M是帧移,N是窗长,是频率分辨率和时间分辨率的折衷,一般是10~30ms,对应50Hz左右的频率分辨率。为了减小窗函数的影响,窗函数的选择和帧移选择很重要,可以用汉宁窗,半帧长的帧移。
3.3 谱减法
1979年提出,广泛用于减少加性噪声。只要在频谱上乘以一个增益系数。谱减法如果减得不够,会有噪声残留,如果减得过多,又会造成语音失真。
- 语音增强噪声类型及评估方法
- 语音增强原理之噪声估计
- 语音增强原理之噪声估计
- 语音增强原理之噪声估计
- 语音增强方法分类
- DSP降噪拾音器 语音增强 噪声抑制器 反馈抑制器
- 语音压缩算法测评及质量评估
- 语音文件增大声音和除噪声及咔嚓声
- 语音增强算法研究系列(四):非平稳噪声消除
- 语音增强效果的测试方法
- 基于IMCRA算法的语音增强方法
- 语音与噪声特点
- 语音增强
- 语音增强
- 高斯白噪声及Matlab常用实现方法
- AOP之术语及增强类型简介
- 图像常见噪声类型
- 语音增强简介
- 学学下拉刷新
- sql server 2008表基本操作
- PHP PDO ACCESS 留言板-回复留言replyMessage.php
- dp基础习题(4.11)
- android studio 获取证书指纹 SHA1
- 语音增强噪声类型及评估方法
- 应用中Matlab语句学习笔记总结2
- luajit ffi 访问C动态库
- Eclipse+Struts2的简单应用
- Java 开发包下载网址
- unbuntu 下使用qq
- iOS开发之实现毛玻璃效果及图片模糊效果
- Ubuntu下,清屏等终端常用命令
- linux下解压命令执行出错 Not found in archive