关于语音识别系统kaldi及qq群的一些想法

来源：互联网发布：淘宝淘气值编辑：程序博客网时间：2024/04/30 21:28

自从建议kaldi学习语音深度学习的qq群以来，群成员在不断的壮大，kaldi语音识别系统是povey大神开源的，我们算是站在巨人的肩膀上进行我们自己的语音识别系统搭建。自从发这么多博客以来，总是很多人加我qq，后来我直接把我qq去掉了。主要原因有如下：第一，我个人的时间有限，我自己需要学习和科研；第二，个人能力有限，我自己再kaldi上做的实验很少；第三，大家的实验平台都不一样，比如：虚拟机，物理机，cygwin等等。希望得到大家的理解……我会尽量回答大家在群里提出的问题。

现在的qq群的目的就是交流作用了，跟我原来的想翻译出kaldi的一些东西，大家共享一些实验什么的。可能每个人都有自己的事情，每个人需要忙自己的事情，很难去集合起来。后面等有时间希望可以组织起来。很多人反应kaldi的资料少，这主要原因还是kaldi出现的比较晚吧。学习kaldi的主要原因可能都是由于kaldi的深度学习模型，但是kaldi里仅仅提供了dbn模型，其他的模型都没有提供。希望其他的人可以做些cnn或者rnn等深度学习模型的实验，或者利用GPU等等的一些实验吧，欢迎分享……

最后，说下kaldi的学习过程。

一般过程分成以下的几步：（自己可以看kaldi主页介绍的学习过程）

1.kaldi的安装：这个安装出现的错误基本在我的博客里都有体现，大家尽量按照步骤去走。注意自己的linux的配置。

2.做些实验：比如我在之前分享的timit数据，可以坐下timit的实验，在timit的实验里你可以先用run.sh跑完自己的实验，然后自己单独自己每一步每一步的去跑，去了解其中每一步的意义。去理解每一步的生成结果，也就是去了解kaldi这个语音识别系统的一些框架和模型。

3.你深入理解深度学习的过程，去用rm或者wsj里的rundnn.sh来跑timit，因为这个脚本的深度学习才具有通用性，你可以修改得到cnn或者rnn。

4.做改进。深度学习的语音识别的改进，我的理解就是2点。第一就是改进特征，比如现在的bnf，也就是bottleneck特征。第二：就是把原来的gmm换成dnn的某一个模型。深度学习的最大好处就是可以更好的学习数据的特征或者特性。当然，前提是数据量足够大，不然容易过拟合。

可能在这过程中会遇到各种各样的问题，特别是深度学习模型的调参过程。大家多去群里交流……最后，祝大家的kaldi学习过程顺利……

0 0