琐碎资料

来源：互联网发布：java response json 编辑：程序博客网时间：2024/05/22 12:38

1.在说话人识别中，大概流程就是：对原始语音进行处理，提取语音特征，模型建立，得到模型参数；在识别过程中，对测试语音提取特征，与模型参数进行比较，得出判别结果。

2.在语音的处理中有一个语音端点检测，就是找出静音帧，这样的话可以提高效率和准确率。

3.目前的所有资料都是剔除噪音和静音，没有说通过噪音来学习到什么参数，所以这方面的资料也不是很多，基本上所有语音都会通过一个滤波器来使得语音更好地提取特征。但是难道不能根据这些无效帧来获得模型参数，判断是该段语音是属于什么性质的语音，也许也有这方面的研究，可能我还没有找到相关资料，没有明确的方向。[把所有语音数据中的噪声拿来训练一个GMM参数]。

4.总之，现在都是一个学习的过程，不管是神经网络、深度学习、机器学习，都是要有一个学习的模式在心中。主要是要把结构弄出来，这就需要具体的编程，或者有特征的目标。

5.看了很多声纹识别方面的资料，最经典的就是GMM，一个效果比较好的就是i-vector——具有实际意义。神经网络与i-vector也是分不开的，所以目前还是先弄懂i-vector。会文章中提到的处理算法，用程序语言表示出来。

6.不能只看文章，要经常写一些小程序，巩固语言语法，这样也会熟能生巧，心中有数。多多练习一下，有一个大体的框架，对于编程有一个自己的模式。

0 0