kaldi数据准备部分,文件解释

来源：互联网发布：情头软件即刻编辑：程序博客网时间：2024/05/16 07:04

若想用已识别的系统对你的数据解码，要重写 “数据部分”.
直接以thchs30项目为例

里面或许会有

cmvn.scp  feats.scp  reco2file_and_channel  segments  spk2utt  text  utt2spk  wav.scp

文件”text” :包含每段语音的文字意思
这里写图片描述

每行的第一项是录音编号（utterance-id），

发音编号后面跟着的是每段录音的标注。

文件wav.scp

这个文件的格式是

<recording-id> <extended-filename>

这里写图片描述

大家可以理解为是一段提取wav格式文件的命令。

文件”utt2spk”与”spk2utt”

spk2utt文件格式是:

<speaker-id> <utterance-id1>

这里写图片描述
解释:以第一行为例,讲话者为B34 他讲了B34_251 B34_254 接下来每一行如此类推

utt2spk文件格式是(spk2utt相反):

<utterance-id1> <speaker-id>

这里写图片描述

现在我们关注一下数据准备的“lang”这个目录。
进入lang目录

s5# ls data/langL.fst  L_disambig.fst  oov.int    oov.txt  phones  phones.txt  topo  words.txt

ps:请把phone翻译为音素

首先是有文件phones.txt和words.txt。这些都是符号表（symbol-table）文件，符合OpenFst的格式定义。其中每一行首先是一个文本项，接着是一个数字项：
phones.txt
这里写图片描述

words.txt
这里写图片描述
SPOKEN_NOISE 是噪音

文件lang/oov.txt仅仅只有一行：
s5# cat lang/oov.txt <SPOKEN_NOISE>
在训练过程中，所有词汇表以外的词都会被映射为这个词（噪音）

在Kaldi中，这些文件被用于在这些音素符号的文本形式和数字形式之间进行转换。大多数情况下，只有脚本utils/int2sym.pl、utils/sym2int.pl和OpenFst中的程序fstcompile和fstprint会读取这些文件。

文件L.fst是FST形式的发音字典

0 0