关于语音识别系统kaldi及qq群的一些想法
来源:互联网 发布:淘宝淘气值 编辑:程序博客网 时间:2024/04/30 21:28
自从建议kaldi学习 语音深度学习的qq群以来,群成员在不断的壮大,kaldi语音识别系统是povey大神开源的,我们算是站在巨人的肩膀上进行我们自己的语音识别系统搭建。自从发这么多博客以来,总是很多人加我qq,后来我直接把我qq去掉了。主要原因有如下:第一,我个人的时间有限,我自己需要学习和科研;第二,个人能力有限,我自己再kaldi上做的实验很少;第三,大家的实验平台都不一样,比如:虚拟机,物理机,cygwin等等。希望得到大家的理解……我会尽量回答大家在群里提出的问题。
现在的qq群的目的就是交流作用了,跟我原来的想翻译出kaldi的一些东西,大家共享一些实验什么的。可能每个人都有自己的事情,每个人需要忙自己的事情,很难去集合起来。后面等有时间希望可以组织起来。很多人反应kaldi的资料少,这主要原因还是kaldi出现的比较晚吧。学习kaldi的主要原因可能都是由于kaldi的深度学习模型,但是kaldi里仅仅提供了dbn模型,其他的模型都没有提供。希望其他的人可以做些cnn或者rnn等深度学习模型的实验,或者利用GPU等等的一些实验吧,欢迎分享……
最后,说下kaldi的学习过程。
一般过程分成以下的几步:(自己可以看kaldi主页介绍的学习过程)
1.kaldi的安装:这个安装出现的错误基本在我的博客里都有体现,大家尽量按照步骤去走。注意自己的linux的配置。
2.做些实验:比如我在之前分享的timit数据,可以坐下timit的实验,在timit的实验里你可以先用run.sh跑完自己的实验,然后自己单独自己每一步每一步的去跑,去了解其中每一步的意义。去理解每一步的生成结果,也就是去了解kaldi这个语音识别系统的一些框架和模型。
3.你深入理解深度学习的过程,去用rm或者wsj里的rundnn.sh来跑timit,因为这个脚本的深度学习才具有通用性,你可以修改得到cnn或者rnn。
4.做改进。深度学习的语音识别的改进,我的理解就是2点。第一就是改进特征,比如现在的bnf,也就是bottleneck特征。第二:就是把原来的gmm换成dnn的某一个模型。深度学习的最大好处就是可以更好的学习数据的特征或者特性。当然,前提是数据量足够大,不然容易过拟合。
可能在这过程中会遇到各种各样的问题,特别是深度学习模型的调参过程。大家多去群里交流……最后,祝大家的kaldi学习过程顺利……
- 关于语音识别系统kaldi及qq群的一些想法
- 语音识别系统之kaldi-----安装出现的错误
- 语音识别系统之kaldi----在timit上的实验
- 语音识别系统之kaldi-----安装续
- 语音识别系统kaldi----实例说明
- 语音识别系统之kaldi------voxforge实例
- 基于kaldi的在线语音识别
- 语音识别Kaldi
- Kaldi语音识别注意事项
- Kaldi语音识别工具包简介及安装说明
- KALDI语音识别新手区
- 关于宠物系统的一些想法
- 关于系统设计的一些想法
- 关于监控系统的一些想法心得
- 关于监控系统的一些想法心得
- 关于监控系统的一些想法心得
- 基于Ubuntu14.04的语音识别工具kaldi安装
- kaldi上第一个免费的中文语音识别例子
- 无参数无返回值的函数sayHello,并在main中执行
- hunnu10701(在n个点中选三个点,使得构成的面积最大)
- android recovery模式流程
- ALSA声卡驱动中的DAPM详解之二:widget-具备路径和电源管理信息的kcontrol
- 在ASP.NET中处理 datetime 的一些通用函数(vb)
- 关于语音识别系统kaldi及qq群的一些想法
- 存储数据键和项目对的类(Dictionary对象
- 使用Lucene的Highlighter实现文件摘要的自动提取
- Mysql安装时出现APPLY security settings错误(一般第一次安装时不会出现这样的错误,而在重新安装时,很容易发生)
- 利用内容观察者操作系统的联系人(查询,添加)
- 你应当如何学习C++(以及编程)(rev#1)
- HDU 1002 之常见WA(C++描述)
- ALSA声卡驱动中的DAPM详解之一:kcontrol
- jQuery中attr和prop方法的区别