论文引介 | A Neural Knowledge Language Model

来源:互联网 发布:linux tomcat环境变量 编辑:程序博客网 时间:2024/06/09 09:52

文章原名:A Neural Knowledge Language Model

作者:Sungjin Ahn , Heeyoul Choi, Tanel Pärnamaa, and Yoshua Bengio

单位:Universitéde Montréal, Samsung Electronics, CIFAR Senior Fellow

译者:涂存超

链接:

https://arxiv.org/pdf/1608.00318v1.pdf(也可戳下方阅读原文)

1

导读

本文是来自Bengio组的ICLR2017的一篇工作。

语言的一个最基本的目的是交流知识。然而,目前的语言模型在融合已有知识方面的能力非常有限。这主要是因为这些语言模型主要是基于词语在统计上的共现情况来获取知识,然而大多数与知识相关的词都是极少出现的命名实体。在这篇论文中,我们提出了一种神经知识语言模型(Neural Knowledge Language Model, NKLM),来将知识图谱中的符号知识与RNN语言模型相结合。在语言模型中的每一步中,NKLM会预测当前观测词是基于哪一个事实生成的。然后,一个词语会从词表中生成,或者从知识图谱中拷贝出来。我们在一个新的WikiFacts数据集上训练和测试我们的模型。实验表明,NKLM显著的改善了perplexity,同时只生成很少数量的未知词(UNK)。此外,我们还证明了在该语言模型中,抽样的文本描述包含了当做未知词的命名实体。

2

模型

对于Wikipedia中的每一个主题(词条)k, Wk是该主题相应的描述序列,Fk是该主题的相关知识集合。其中,描述序列是一列与该主题相关的词,知识集合中的一个事实是一个包含(subject, relation, object)的三元组。其中subject与该主题一致。同时,我们利用object的实体描述信息作为事实的描述信息。

对于每个语料中的主题k,存在一个三元组序列,其中每一个元素xt为。其中,wt是观测词,at是基于的事实,,1表示wt是从事实描述信息中拷贝出来,0则是从词表中生成。NKLM的模型图如下图所示。

  

当处理主题k时,我们假设与该主题相关的知识集合Fk被加载到知识存储器中。其中,每一行的ai为一个事实的向量表示。我们通过预先训练TransE等知识图谱的表示模型,来得到每一个事实的向量表示。在训练时,对于这些事实的向量不会进行更新。需要注意的是,我们在知识存储器中额外加入了一个Not-a-Fact(NaF)的选项,对NaF对应的表示会进行更新。

在每一步预测一个词时,NKLM分为四个具体的步骤:

1.利用上一步的输出词以及事实作为当前的输入 。具体来说,将上一步的三元组进行如下连接操作:

  

随后,将xt-1以及ht-1输入到LSTM单元,得到当前LSTM单元的隐层表示ht。

2.根据LSTM的输出ht,预测一个事实at,并将其表示从知识存储器中检索出来。

检索的键值,其中,ek为主题上下文表示(这里是取的所有事实表示的平均)。利用该键值,直接在存储器中进行如下检索:

3.根据ht和at,判断是从词表生成一个词还是从知识的描述中拷贝一个词。

  

4.根据判断结果,如果是从词表生成,则采取与标准的语言模型同样的做法,从固定的词表中利用softmax生成一个词;否则,则从预测出的事实at的描述信息中,拷贝一个词。需要注意的是,这里的拷贝操作,是通过位置来确定,而不是通过描述信息中的具体词决定。

给定观测词序列以及对应的知识集合,NKLM的目标函数如下:

其中:

3

实验

这篇文章首先进行了数据集的构建。通过对齐Wikipedia与Freebase,得到了WikiFacts数据集:

  

这篇文章采用了perplexity以及一种新提出的Unknown-Penalized Perplexity来评价语言模型,结果如下所示:

  

  

可以看到,NKLM的ppl显著降低,并且出现在其中的UNK数量减少很多。为了证明NKLM在减少UNK上的效果,本文还抽取了一些语言模型生成样例,如下所示:

  

4

贡献

本文提出了一种新颖的将知识融合进入RNNLM的语言模型NKLM。通过perplexity进行评测,NKLM显著优于RNNLM,并且在生成未知命名实体方面十分有效。

此外,本文还构建了基于知识图谱的语言模型数据集WikiFacts。这个数据集将有助于与知识相关的自然语言任务。此外,本文提出的Unknown-Penalized Perplexity能够解决传统的perplexity的局限之处。

0 0
原创粉丝点击