机器之心对俞栋的采访
来源:互联网 发布:mac 显示器校准 编辑:程序博客网 时间:2024/04/30 18:32
转http://sanwen8.cn/p/5c32E5V.html
机器之心:从您和邓力老师的那本书《Automatic Speech Recognition: A Deep Learning Approach》出版到现在,您认为期间深度学习有了什么新的研究成果? 哪些研究成果您认为是很重大的?
俞栋:我们写这本书的时候,LSTM 这样的模型才刚刚开始成功应用于语音识别。当时大家对其中的很多 技巧 还没有很好的了解。所以训练出来的模型效果还不是那么好。最近,我的同事 Jasha Droppo 博士花了很多时间在 LSTM 模型上面,提出了一种很有意思的基于 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我们的 human parity 文章中有介绍。
另外一个比较大的进展是 Deep CNN。最近两年里,很多研究组都发现或证实使用小 Kernel 的 Deep CNN 比我们之前在书里面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一个好处。用 LSTM 的话,一般你需要用双向的 LSTM 效果才比较好。但是双向 LSTM 会引入很长的时延,因为必须要在整个句子说完之后,识别才能开始。而 Deep CNN 的时延相对短很多,所以在实时系统里面我们会更倾向于用 Deep CNN 而不是双向 LSTM。
还有就是端到端的训练方式也是在我们的书完成后才取得进展的。这方面现在大家的研究工作主要集中在两类模型上。一类就是 CTC 模型,包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI;还有一类是 attention-based sequence to sequence model。这些模型在我们的书里面都没有描述,因为当时还没有做成功。即便今天它们的表现也还是比 hybrid model 逊色,训练的稳定性也更差,但是这些模型有比较大的 potential。如果继续研究有可能取得突破。
另外一个进展是单通道语音分离,尤其是多人混合语音的分离。这方面有两项有趣的工作。一个是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法,另外一个是我们提出的 Permutation Invariant Training。实现上,Permutation Invariant Training 更简单。John Hershey 认为有迹象表明 deep clustering 是 permutation invariant training 的一个特例。
这些都是在我们完书之后最近两年里比较有意义的进展。
- 机器之心对俞栋的采访
- 对公司员工的采访
- java之对Java Inputstream的一次采访
- 对Pragmatic Programmer的采访
- 对计算机社群的采访
- Morning对Leo的采访(上)
- Morning对Leo的采访(下)
- Slashdot对Bjarne Stroustrup的采访
- [收藏]对AspectJ作者的采访
- Morning对Leo的采访(下)
- Morning对Leo的采访(上)
- Developpeur Reference对Bjarne Stroustrup的采访
- Slashdot对Bjarne Stroustrup的采访
- [收藏]对AspectJ作者的采访
- Slashdot对Bjarne Stroustrup的采访
- 多年前对《代码大全》作者的采访
- 对九个超级程序员的采访
- 对九个超级程序员的采访
- 2、spring入门—Spring IOC容器
- ReactNative学习——集成到原生android项目中
- U盘快捷方式病毒修复
- android细字体
- 运行Android程序时DDMS报错:Failed to initialize Monitor Thread: Unable to establish loopback connection。
- 机器之心对俞栋的采访
- stm32寄存器版学习笔记01 GPIO口的配置(LED、按键)
- 大数据性能调优之HBase的RowKey设计
- 获取 UITextView 的光标位置
- SharePrefrence基本用法
- 亿级Web系统搭建——单机到分布式集群
- svn:总使用最新数据忽略个人修改
- 设计模式的概念
- 【NOIP 2008 提高组 T3】传纸条(DP)