MFCC语音识别特征

来源：互联网发布：解决json包含html标签编辑：程序博客网时间：2024/05/16 15:46

MFCC全程为mel frequency cepstral coefficients （梅尔频率倒谱系数）

过程如下所示：

1.首先是Preemphasis目的是boosting，增加高频能量，从而提高phone的的识别率

2.然后是加窗，加窗的目的是让语音信号在一帧内统计特性是固定的，便于构建phone或者subphone分类器。过程如下

上图所示：每帧窗口25ms，帧位移为10ms

实际中加窗都用hamming 进行加窗，为的是避免在窗口边界处不连续导致后面傅里叶分析时出现问题，

Hamming 加窗算法和矩形加窗如下所示

对应的效果图如下所示（对比边界处，可以看到hamming加窗是连续的，而矩阵加窗是非连续的）

3.接下来是Discrete Fourier Transform离散傅里叶变换，目的是得到不同频带，每帧信号所包含的能量。

如下图所示是25ms帧元音[iy]对应的DFT变换

4.接着是Mel filter bank and log，人耳对1000Hz以上的声音不是很敏感，因此对1000Hz以上的进行log操作，对1000以下的做线性操作，从而提高识别性能

公式如下：

如图所示：

5.接着是倒谱，即离散傅里叶变换逆变换(The Cepstrum: Inverse Discrete Fourier Transform )

目的是提高语音识别性能，公式如下所示：取前12个参数

6.最后是能量和加速度(Deltas and Energy )

声音信号具有连续特性，所以在5的基础之上，添加了速度和加速度特征信号

能量信号计算公式如下：

速度特征计算如下：

综上所示，39维MFCC特征包括如下信息

0 0