MFCC语音识别特征

来源:互联网 发布:解决json包含html标签 编辑:程序博客网 时间:2024/05/16 15:46

MFCC全程为mel frequency cepstral coefficients (梅尔频率倒谱系数)

过程如下所示:



1.首先是Preemphasis目的是boosting,增加高频能量,从而提高phone的的识别率

2.然后是加窗,加窗的目的是让语音信号在一帧内统计特性是固定的,便于构建phone或者subphone分类器。过程如下


上图所示:每帧窗口25ms,帧位移为10ms

实际中加窗都用hamming 进行加窗,为的是避免在窗口边界处不连续导致后面傅里叶分析时出现问题,

Hamming 加窗算法和矩形加窗如下所示


对应的效果图如下所示(对比边界处,可以看到hamming加窗是连续的,而矩阵加窗是非连续的)


3.接下来是Discrete Fourier Transform离散傅里叶变换,目的是得到不同频带,每帧信号所包含的能量。

如下图所示是25ms帧元音[iy]对应的DFT变换


4.接着是Mel filter bank and log,人耳对1000Hz以上的声音不是很敏感,因此对1000Hz以上的进行log操作,对1000以下的做线性操作,从而提高识别性能

公式如下:


如图所示:


5.接着是倒谱,即离散傅里叶变换逆变换(The Cepstrum: Inverse Discrete Fourier Transform )

目的是提高语音识别性能,公式如下所示:取前12个参数


6.最后是能量和加速度(Deltas and Energy )

声音信号具有连续特性,所以在5的基础之上,添加了速度和加速度特征信号

能量信号计算公式如下:


速度特征计算如下:


综上所示,39维MFCC特征包括如下信息




0 0
原创粉丝点击