【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

来源：互联网发布：不满意淘宝投诉结果编辑：程序博客网时间：2024/05/03 19:09

作者：Mingxuan Wang，李航，刘群
单位：华为、中科院
时间：2015
发表于：acl 2015
文章下载：http://pan.baidu.com/s/1bnBBVuJ

主要内容：
用deep learning设计了一种语言模型，能够根据之前“所有”的历史来预测当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量，该模型都比baseline（5-gram、RNN、等）好

具体内容：

之前用deep learning在语言模型上的进展是：RNN和LSTM
参考的工具包：
RNN – http://rnnlm.org/
LSTM – https://github.com/lisa-groundhog/GroundHog
本文作者的实现方式：
（1）用alpha-cnn来模拟当前词比较近的历史，约之前30个词；用beta-cnn来递归的模拟所有之前的历史。beta-cnn的输出是其他beta-cnn以及alpha-cnn的输入。网络结构如下：
（2）用了word2vec作为词语的输入，两层隐含层，用gate代替max pooling，最后输出层是softmax层
（3）同标准cnn不同的是：标准cnn在局部共享权重，本文既有共享的权重，也有不共享的权重
（4）训练方式是最大化训练语料中句子的概率
实验结果（困惑度）
5-gram KN smoothing: 270
RNN：223
LSTM：206
本文方法：180

另外，训练时间比较长，1M句子，用了GPU还训练了2天。

0 0