声学特征 PNCC
来源:互联网 发布:淘宝的软件靠谱么 编辑:程序博客网 时间:2024/06/11 08:18
特点
power-normalized cepstral coefficients相比于MFCC特征:
- 在噪声和混响场景下提升识别效果,尤其在训练语料是clean语音的时候
- 相比于MFCC,计算量提升34.6%
使用pncc相比mfcc,噪声和口音测试集可以得到10-15%的相对提升
细节
和MFCC/PLP特征的整体对比如上图
filter bank
相比于MFCC的triangular filters,PNCC使用gammatone filters,40维,截止频率分别是200/8000。
获得
medium-time power calculation
由于噪声的能量变化相比语音慢很多,所以更大的时间窗口可以得到更好的性能,所以对每一帧进行了平滑处理(左右2帧做平均)。
得到的
asymmetric noise suppression
因为语音的能量相比噪声变化快,所以使用谱减法来过滤掉低频部分以达到抑制噪声的目的。
其中的temperal masking的引入可以减弱混响的影响,首先获得每个channel的moving peak,如果某一帧的能量低于这个peak曲线,缩小对应的能量。
获得
spectral weight smoothing
在不同的channel之间做平滑。
其中
最后调制
mean power normalization
均值的获取使用online的形式
归一化以后:
rate-level nonlinearity
相比于MFCC使用的log非线性函数,PNCC使用指数函数,更符合人耳听觉神经的压缩感知
参考
Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C
阅读全文
0 0
- 声学特征 PNCC
- 声学特征 PLP
- 声学特征 ivector
- 声学特征变换 fMLLR
- 声学特征变换 LDA
- 声学特征(三) pitch
- 声学特征变换 STC/MLLT
- 声学特征转换 kaldi工具
- 声学特征(二) MFCC特征原理
- 声学特征(一) HTK抽取MFCC特征
- 声学
- 声学特征(四) pitch-yin代码实现
- sphinx中自己提取特征参数训练声学模型参数方法探讨
- 语音合成的思路、语音的声学特征、声音采样的一些资料
- 声学建模
- 声学常识
- 声学常用概念
- 声学的一些概念
- springmvc配置定时器
- HDU2002 计算球体积【入门】
- 5.1
- Hello World 实例来介绍如何用 Webpack 设置 React 开发环境
- QT资料搜集页
- 声学特征 PNCC
- output标签实现滑块输出值跟踪
- 编译caffe出错
- 《MySQL入门》
- 集合框架
- 解决u-boot 2016.11 ”ERROR: Makefile:1385: recipe for target 'checkarmreloc' failed”
- 如何用C++实现自己的Tensorflow
- javascript中call apply bind详解
- sigmoid和softmax总结