MFCC倒谱系数特征提取与识别
来源:互联网 发布:sqlserver可视化工具 编辑:程序博客网 时间:2024/05/29 08:01
首先,整合一下上一篇的基本内容:MFCC参数的提取过程。
耳蜗实质上相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000HZ下,人耳的感知能力与频率成线性关系;而在1000HZ以上,人耳的感知能力与频率不构成线性关系,而更偏向于对数关系,这就使得人耳对低频信号比高频信号更敏感。Mel频率的提出是为了方便人耳对不同频率语音的感知特性的研究。频率与Mel频率的转换公式为:
MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。
MFCC参数的提取
1、 预加重处理
预加重处理其实是一个高通滤波器,该高通滤波顺的传递函数为:
其中的取值为0.97,该高通滤波器作用是滤去低频,使语音信号的高频特性更加突现。
2、 分帧及加窗处理
由于语音信号只在较短的时间内呈现平稳性(一般认为10-30ms),因此将语音信号划分为一个一个的短时段即一帧。同时为避免丢失语音信号的动态信息,相邻帧之间要有一段重叠区域,重叠区域一段为帧长的1/2或1/3。然后再将每帧乘上窗函数,以增加每帧左端和右端的连续性。
3、 各帧信号的FFT变换
对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。
4、 三角滤波器系数的求取
定义若干个带通三角滤波器(k),0<=m<=M,M为滤波器个数,其中心频率为f(m),每个带通三角滤波器的频率响应为
且满足Mel(f(m))-Mel(f(m-1))=Mel(f(m+1))-Mel(f(m))
求得滤波系数为m(i),i=1,…,p,p为滤波器阶数
5、 三角滤波并进行离散余弦变换DCT
C(i)即为所要求提取的特征参数。
特征参数提取之后,进行特征参数的识别:
特征参数的识别主要采用BP神经网络算法进行预测,而在预测前需要用一定数量的样本对网络进行训练,使网络具有联想记忆和预测能力。
网络训练步骤如下:
(1) 网络初始化。
确定网络输入层、隐层、输出层数目,输出层到隐层的连接权值Wij及隐层到输出层的连接权值Wjk,同时初始化隐层阈值a和输出层阈值b;
(2) 隐层的输出计算。
隐层输出式中,l为隐含层节点数;f为隐含层激励函数,本实验选取函数为:
(3) 输出层输出计算。
根据隐含层输出H,连接权值和阈值b,计算BP神经网络预测输出O。
(4) 误差计算。
根据网络预测输出O和期望输出Y,计算网络预测误差e.
(5) 权值更新。
根据网络预测误差e更新网络连接权值,
其中,α为学习速率。
(6) 阈值更新。
根据网络预测误差e更新网络节点阈值a,b.
(7) 判断算法迭代是否结束,若没有结束,返回步骤(2)。
BP神经网络分类
用训练好的BP神经网络分类语音特征信号,根据分类结果分析BP神经网络分类能力。
- MFCC倒谱系数特征提取与识别
- MFCC倒谱系数
- 梅尔频率倒谱系数(MFCC)的提取过程与C++代码实现
- MFCC(Mel 倒谱系数)
- MFCC:Mel频率倒谱系数
- MFCC(倒谱系数)的求法
- MFCC 梅尔频率倒谱系数
- mfcc提取语音的mel倒谱系数及其一阶导数
- 梅尔频率倒谱系数(MFCC)讲解
- 梅尔频率倒谱系数(MFCC)教程
- MFCC梅尔频率倒谱系数学习笔记
- MFCC梅尔倒谱系数
- 理解-MFCC梅尔倒谱系数
- 语音信号处理之(四)梅尔频率倒谱系数(MFCC)
- 语音信号处理之(四)梅尔频率倒谱系数(MFCC)
- 语音信号处理之(四)梅尔频率倒谱系数(MFCC)
- 语音信号处理之(四)梅尔频率倒谱系数(MFCC)
- 语音信号处理之(四)梅尔频率倒谱系数(MFCC)
- 真正好用的RPC框架rest_rpc正式发布第一个版本
- 免费谷歌卫星地图下载器
- Retrofit 源码解析
- Dijkstra(n log(n))优先队列优化+链式前向星
- StringTokenizer类的使用方法
- MFCC倒谱系数特征提取与识别
- Spring4下载f.txt文件解决方法
- 继续指针
- android中handler,message,message queue,looper底层实现机制
- Android ViewPager使用小结
- Linux下MySQL数据库常用基本操作
- Errors occurred during the build. Errors running builder 'DeploymentBuilder' on project 'myf'. java.
- CDatabase类
- 百度离线地图服务器搭建