声学特征 PNCC

来源：互联网发布：淘宝的软件靠谱么编辑：程序博客网时间：2024/06/11 08:18

特点

power-normalized cepstral coefficients相比于MFCC特征：
- 在噪声和混响场景下提升识别效果，尤其在训练语料是clean语音的时候
- 相比于MFCC，计算量提升34.6%

使用pncc相比mfcc，噪声和口音测试集可以得到10-15%的相对提升

这里写图片描述
和MFCC/PLP特征的整体对比如上图

相比于MFCC的triangular filters，PNCC使用gammatone filters，40维，截止频率分别是200/8000。
这里写图片描述
获得P[m,l],m表示frame，l表示channel

由于噪声的能量变化相比语音慢很多，所以更大的时间窗口可以得到更好的性能，所以对每一帧进行了平滑处理(左右2帧做平均)。

Q ¯ [m, l] = 1 2 M + 1 \sum m' = m - M m + M P [m', l]

得到的

Q¯[m,l]用于后面的噪声估计和补偿

因为语音的能量相比噪声变化快，所以使用谱减法来过滤掉低频部分以达到抑制噪声的目的。
这里写图片描述
其中的temperal masking的引入可以减弱混响的影响，首先获得每个channel的moving peak，如果某一帧的能量低于这个peak曲线，缩小对应的能量。
获得R¯[m,l]

在不同的channel之间做平滑。

s ¯ [m, l] = (1 l 2 - L 1 + 1 \sum l' = l 1 l 2 R ¯ [ m , l ' ] Q ¯ [ m , l ' ])

其中

l2=min(l+N,L)，

L表示channel的个数，

l1=max(l−N,1)，

N设为4
S¯[m,l]通过medium-time power calculation实现了在时间维度上的平滑，通过spectral weight smoothing则实现了在频率维度上的平滑，时域是左右2帧，频域是左右4个channel
最后调制

P[m,l]得到

T [m, l] = P [m, l] S ¯ [m, l]

均值的获取使用online的形式

μ [m] = λ μ μ [m - 1] + 1 - λ μ L \sum l = 0 L - 1 T [m, l]

归一化以后：

U [m, l] = k T [ m , l ] μ [ m ]

相比于MFCC使用的log非线性函数，PNCC使用指数函数，更符合人耳听觉神经的压缩感知

V [m, l] = U [m, l] 1 / 15

Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recognition
http://www.cs.cmu.edu/~robust/archive/algorithms/PNCC_C

阅读全文

0 0