kaldi数据准备部分,文件解释
来源:互联网 发布:情头软件即刻 编辑:程序博客网 时间:2024/05/16 07:04
若想用已识别的系统对你的数据解码,要重写 “数据部分”.
直接以thchs30项目为例
里面或许会有
cmvn.scp feats.scp reco2file_and_channel segments spk2utt text utt2spk wav.scp
文件”text” :包含每段语音的文字意思
每行的第一项是录音编号(utterance-id),
发音编号后面跟着的 是每段录音的标注。
文件wav.scp
这个文件的格式是
<recording-id> <extended-filename>
大家可以理解为是一段提取wav格式文件的命令。
文件”utt2spk”与”spk2utt”
spk2utt文件格式是:
<speaker-id> <utterance-id1>
解释:以第一行为例,讲话者为B34 他讲了B34_251 B34_254 接下来每一行如此类推
utt2spk文件格式是(spk2utt相反):
<utterance-id1> <speaker-id>
数据准备– “lang”目录
现在我们关注一下数据准备的“lang”这个目录。
进入lang目录
s5# ls data/langL.fst L_disambig.fst oov.int oov.txt phones phones.txt topo words.txt
ps:请把phone翻译为音素
首先是有文件phones.txt和words.txt。这些都是符号表(symbol-table)文件,符合OpenFst的格式定义。其中每一行首先是一个文本项,接着是一个数字项:
phones.txt
words.txt
SPOKEN_NOISE 是噪音
文件lang/oov.txt仅仅只有一行: s5# cat lang/oov.txt
<SPOKEN_NOISE>
在训练过程中,所有词汇表以外的词都会被映射为这个词(噪音)
在Kaldi中,这些文件被用于在这些音素符号的文本形式和数字形式之间进行转换。 大多数情况下,只有脚本utils/int2sym.pl、utils/sym2int.pl和OpenFst中的程序fstcompile和fstprint会读取这些文件。
文件L.fst是FST形式的发音字典
0 0
- kaldi数据准备部分,文件解释
- Kaldi学习之数据准备详细解释说明
- kaldi中的数据准备
- kaldi文件解释2
- Kaldi脚本分析(1)——数据准备
- kaldi解释wav.trn
- kaldi学习笔记:run.sh(egs/timit/s5)详细分析:从数据准备到特征提取
- jar 打包文件部分解释
- [转载]kaldi学习笔记:run.sh(egs/timit/s5)详细分析:从数据准备到特征提取
- Nhibernate 映射文件部分参数解释
- 附录C 准备NCDC气象数据(加解释)
- Kaldi 文件打印及其说明
- kaldi
- Kaldi
- IAR 430 头文件中#define定义的部分解释
- IAR 430 头文件中#define定义的部分解释
- IAR 430 头文件中#define定义的部分解释
- LINUX(socket)网络编程部分头文件归纳解释
- 两次调用_getche()函数识别扩展按键
- SpringMVC 请求数据封装转换
- Spring学习(2)
- 4 equals()和=
- js中opener与parent的区别解析
- kaldi数据准备部分,文件解释
- 大学最后一年,临近毕业,2016年总结
- pitch、yaw、roll
- ELK 5.1.1版本部署搭建
- h5新特性;
- jQuery prev+next选择器
- 【Unity小技巧】在VS中查找当前文本的类
- XSS攻击
- Android studio 错误整理