琐碎资料

来源:互联网 发布:java response json 编辑:程序博客网 时间:2024/05/22 12:38

1.在说话人识别中,大概流程就是:对原始语音进行处理,提取语音特征,模型建立,得到模型参数;在识别过程中,对测试语音提取特征,与模型参数进行比较,得出判别结果。

2.在语音的处理中有一个语音端点检测,就是找出静音帧,这样的话可以提高效率和准确率。

3.目前的所有资料都是剔除噪音和静音,没有说通过噪音来学习到什么参数,所以这方面的资料也不是很多,基本上所有语音都会通过一个滤波器来使得语音更好地提取特征。但是难道不能根据这些无效帧来获得模型参数,判断是该段语音是属于什么性质的语音,也许也有这方面的研究,可能我还没有找到相关资料,没有明确的方向。[把所有语音数据中的噪声拿来训练一个GMM参数]。

4.总之,现在都是一个学习的过程,不管是神经网络、深度学习、机器学习,都是要有一个学习的模式在心中。主要是要把结构弄出来,这就需要具体的编程,或者有特征的目标。

5.看了很多声纹识别方面的资料,最经典的就是GMM,一个效果比较好的就是i-vector——具有实际意义。神经网络与i-vector也是分不开的,所以目前还是先弄懂i-vector。会文章中提到的处理算法,用程序语言表示出来。

6.不能只看文章,要经常写一些小程序,巩固语言语法,这样也会熟能生巧,心中有数。多多练习一下,有一个大体的框架,对于编程有一个自己的模式。

0 0
原创粉丝点击