机器之心对俞栋的采访

来源：互联网发布：mac 显示器校准编辑：程序博客网时间：2024/04/30 18:32

转http://sanwen8.cn/p/5c32E5V.html

机器之心：从您和邓力老师的那本书《Automatic Speech Recognition： A Deep Learning Approach》出版到现在，您认为期间深度学习有了什么新的研究成果? 哪些研究成果您认为是很重大的？

俞栋：我们写这本书的时候，LSTM 这样的模型才刚刚开始成功应用于语音识别。当时大家对其中的很多技巧还没有很好的了解。所以训练出来的模型效果还不是那么好。最近，我的同事 Jasha Droppo 博士花了很多时间在 LSTM 模型上面，提出了一种很有意思的基于 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我们的 human parity 文章中有介绍。

另外一个比较大的进展是 Deep CNN。最近两年里，很多研究组都发现或证实使用小 Kernel 的 Deep CNN 比我们之前在书里面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一个好处。用 LSTM 的话，一般你需要用双向的 LSTM 效果才比较好。但是双向 LSTM 会引入很长的时延，因为必须要在整个句子说完之后，识别才能开始。而 Deep CNN 的时延相对短很多，所以在实时系统里面我们会更倾向于用 Deep CNN 而不是双向 LSTM。

还有就是端到端的训练方式也是在我们的书完成后才取得进展的。这方面现在大家的研究工作主要集中在两类模型上。一类就是 CTC 模型，包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI；还有一类是 attention-based sequence to sequence model。这些模型在我们的书里面都没有描述，因为当时还没有做成功。即便今天它们的表现也还是比 hybrid model 逊色，训练的稳定性也更差，但是这些模型有比较大的 potential。如果继续研究有可能取得突破。

另外一个进展是单通道语音分离，尤其是多人混合语音的分离。这方面有两项有趣的工作。一个是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法，另外一个是我们提出的 Permutation Invariant Training。实现上，Permutation Invariant Training 更简单。John Hershey 认为有迹象表明 deep clustering 是 permutation invariant training 的一个特例。

这些都是在我们完书之后最近两年里比较有意义的进展。

0 0