神经网络中end-to-end training和end-to-end models的区别

来源：互联网发布：外汇高盛软件编辑：程序博客网时间：2024/06/11 07:15

学习神经网络的时候，常常看到论文里说，这个网络模型是end-to-end trainable，end-to-end trainable是指什么样子的网络?不是很理解，所有在网上查找很多资料，来整理一下！

传统的语音识别系统，是由许多个模块组成的，包括声学模型、发音词典、语言模型。其中声学模型和语言模型是需要训练的。这些模块的训练一般都是独立进行的，各有各的目标函数，比如声学模型的训练目标是最大化训练语音的概率，语言模型的训练目标是最小化 perplexity。由于各个模块在训练时不能互相取长补短，训练的目标函数又与系统整体的性能指标（一般是词错误率 WER）有偏差，这样训练出的网络往往达不到最优性能。

针对这个问题，一般有两种解决方案：

端到端训练（end-to-end training）：一般指的是在训练好语言模型后，将声学模型和语言模型接在一起，以 WER 或它的一种近似为目标函数去训练声学模型。由于训练声学模型时要计算系统整体的输出，所以称为「端到端」训练。可以看出这种方法并没有彻底解决问题，因为语言模型还是独立训练的。

端到端模型（end-to-end models）：系统中不再有独立的声学模型、发音词典、语言模型等模块，而是从输入端（语音波形或特征序列）到输出端（单词或字符序列）直接用一个神经网络相连，让这个神经网络来承担原先所有模块的功能。典型的代表如使用 CTC 的 EESEN [1]、使用注意力机制的 Listen, Attend and Spell [2]。这种模型非常简洁，但灵活性就差一些：一般来说用于训练语言模型的文本数据比较容易大量获取，但不与语音配对的文本数据无法用于训练端到端的模型。因此，端到端模型也常常再外接一个语言模型，用于在解码时调整候选输出的排名（rescoring），如 [1]。

「输入是语音波形（raw waveform）」并不是端到端模型的本质特征，端到端模型的输入也可以是特征序列（MFCC 等）。端到端模型的本质特征是把声学模型、发音词典、语言模型这些传统模块融合在一起。

end to end 的好处：通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的整体契合度。

参考文章：https://www.zhihu.com/question/51435499

阅读全文

0 0