MFCC语音识别特征
来源:互联网 发布:解决json包含html标签 编辑:程序博客网 时间:2024/05/16 15:46
MFCC全程为mel frequency cepstral coefficients (梅尔频率倒谱系数)
过程如下所示:
1.首先是Preemphasis目的是boosting,增加高频能量,从而提高phone的的识别率
2.然后是加窗,加窗的目的是让语音信号在一帧内统计特性是固定的,便于构建phone或者subphone分类器。过程如下
上图所示:每帧窗口25ms,帧位移为10ms
实际中加窗都用hamming 进行加窗,为的是避免在窗口边界处不连续导致后面傅里叶分析时出现问题,
Hamming 加窗算法和矩形加窗如下所示
对应的效果图如下所示(对比边界处,可以看到hamming加窗是连续的,而矩阵加窗是非连续的)
3.接下来是Discrete Fourier Transform离散傅里叶变换,目的是得到不同频带,每帧信号所包含的能量。
如下图所示是25ms帧元音[iy]对应的DFT变换
4.接着是Mel filter bank and log,人耳对1000Hz以上的声音不是很敏感,因此对1000Hz以上的进行log操作,对1000以下的做线性操作,从而提高识别性能
公式如下:
如图所示:
5.接着是倒谱,即离散傅里叶变换逆变换(The Cepstrum: Inverse Discrete Fourier Transform )
目的是提高语音识别性能,公式如下所示:取前12个参数
6.最后是能量和加速度(Deltas and Energy )
声音信号具有连续特性,所以在5的基础之上,添加了速度和加速度特征信号
能量信号计算公式如下:
速度特征计算如下:
综上所示,39维MFCC特征包括如下信息
- MFCC语音识别特征
- 语音特征参数MFCC
- 语音识别之MFCC
- 语音识别(MFCC)
- 语音识别 之 MFCC
- MFCC(语音特征参数)
- 语音特征参数提取--MFCC
- 语音 识别 MFCC DTW 初谈
- 语音 识别 MFCC DTW 初谈
- 语音特征参数MFCC提取过程详解
- 语音特征MFCC的求解过程
- 语音特征参数MFCC提取过程详解
- 语音特征参数MFCC提取过程详解
- 语音的Mfcc特征学习与理解
- 语音特征参数MFCC提取过程详解
- 语音特征参数MFCC提取过程详解
- 语音特征参数MFCC提取过程详解
- 语音特征参数MFCC提取过程详解
- 进制转换
- 【项目管理】如何定义开放性问题和如何在项目中跟踪开放性问题
- JavaEE项目如何引入jar
- 专利文档一般有哪些内容
- SpringMVC深度探险(四) —— SpringMVC核心配置文件详解
- MFCC语音识别特征
- 【Unity】通过实时记录模拟时间倒退效果回放
- JDBC连接数据库步骤
- 简单的angular实例
- cocosjs 使用XMLhttpRequest 跨域问题
- nvm 管理不同版本的 node 与 npm
- bfs
- linux 下用freetds 连接sqlserver
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?