【论文笔记】Character-Aware Neural Language Models
来源:互联网 发布:概率影响矩阵 编辑:程序博客网 时间:2024/05/17 03:37
一、概要
该文章发于AAAI 2016,作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM)。当输入一个LSTM循环神经网络语言模型(RNN-LM)时,该模型在字符上启用了一个卷积神经网络(CNN),让该CNN的输出通过一个 Highway Network,使得效果得到进一步提升。该模型非常适用于形态丰富的语言上,因为其可以获取到丰富的语义和拼写信息。
二、模型方法
2.1 模型结构
如上图所示,该模型首先是character-level representation经过卷积神经网络,输入经过Highway network,然后再作为LSTM结果的输入,最后经过一个softmax输出概率。
2.2 Character-level Convolutional Neural Network
假设C为字符集合,d为character embeddings维度的大小,那么
我们可以使用不同宽度的卷积核
其中
在这里可以取不同大小的卷积核,对应一种卷积核可以设置多个数量,最后把所有的输入进行组合。
下图为大小语言模型的一些参数。
2.3 Highway Network
对于上面CNN的输入,让其经过Highway Network,假设单词k在CNN中的输出为
其中g为非线性函数,
2.4 Recurrent Neural Network Language Model
这里使用的是LSTM,关于具体的LSTM可以看这里【Deep Learning】LSTM(Long Short-Term Memory)及变体。假设V为语料单词集合,存在句子
训练时,假设句子长度为T,那目标是最小化代价函数negative log-likelihood (N LL)为:
语言模型常用的评价标准是perplexity (PPL):
三、实验结果
作者除了在英语数据集Penn Treebank (PTB)外,还在其他语言上做了实验,具体可以看原论文,这里主要说一下英语语料结果。
通过实验结果可以看到在之前的模型上,除了最后一个结果是做了模型融合,作者提出的模型结果是最好的,并且参数也是非常少的,并且基于字符的模型不会出现OOV(out of vocabulary)的问题,同时,值得注意的是,作者发现,通过Character-level和Highway Network可以使得意思相近词的余弦相似度更小,如下图:
四、结论与思考
作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM),在减少参数的基础上,可以取得比word/morpheme embeddings作为输入更好的效果,通过char embeddings可以取得更加丰富的语义和拼写信息,最后作者认为CharCNN和highway layers是仍然是未来representation learning的光明大道,以及本文可能在机器翻译等领域可能存在一定的意义。
五、个人思考:
①文章使用了Highway Network,从某种角度上讲Highway Network与LSTM中的遗忘门和输入门非常类似,作者尝试使用multilayer perceptron代替,但是效果却不理想,因而作者假设Highway Network适合与CNN,这个是值得商榷的。
②作者尝试使用char embeddings和word embeddings结合的方法,但效果变得不好,与前人的在part- of-speech tagging (dos Santos and Zadrozny 2014) and named entity recognition(dos Santos and Guimaraes 2015) 结合两种方法可以取得更好效果的结论相悖,作者认为在某些任务上word embeddings是多余的,char embeddings就足够了,是否可以取不同的权重可以达到充分利用其信息,这可能也是可以尝试的。
参考文献:
①Yoon Kim,Yacine Jernite.Character-Aware Neural Language Models
②代码链接:https://github.com/yoonkim/lstm-char-cnn。
- 【论文笔记】Character-Aware Neural Language Models
- 【论文阅读】Neural Language Correction with Character-Based Attention
- [NLP论文阅读] The Fixed-Size Ordinally-Forgetting Encoding Method for Neural Network Language Models
- 【论文学习笔记】ICDM12-Topic-aware Social Influence Propagation Models(话题感知社会影响力传播模型)
- 【Deep Learning学习笔记】NEURAL NETWORK BASED LANGUAGE MODELS FOR HIGHLY INFLECTIVE LANGUAGES_google2009
- Context-aware Natural Language Generation with Recurrent Neural Networks
- 读论文《A Neural Probabilistic Language Model》
- 【论文阅读】A Neural Probabilistic Language Model
- Language Models
- 笔记:Deep attributes from context aware regional neural codes
- Language Model 论文阅读笔记
- 论文引介 | A Neural Knowledge Language Model
- [NLP论文阅读]A Neural Knowledge Language Model(一)
- 读论文《Recurrent neural network based language model 》
- NLP论文研读之路:A Neural Probabilistic Language Model
- A Neural Probabilistic Language Model笔记
- A Neural Probabilistic Language Model笔记
- 论文笔记:Recurrent Models of Visual Attention
- java日常学习:直接查找法和二分法(折半法)查找数组元素
- 循环队列
- TLPI-Chapter 10 时间
- 二叉树镜像问题
- 链队列
- 【论文笔记】Character-Aware Neural Language Models
- 十进制
- source命令
- http状态码大全
- AppBarLayout 简单使用
- 面试中如何回答HashMap的工作原理
- [思维导图]Java中异常的分类整理
- 文章标题
- 打印机打印列队中打印状态为错误的解决方式之一