论文引介 | A Neural Knowledge Language Model

来源：互联网发布：linux tomcat环境变量编辑：程序博客网时间：2024/06/09 09:52

文章原名：A Neural Knowledge Language Model

作者：Sungjin Ahn , Heeyoul Choi, Tanel Pärnamaa, and Yoshua Bengio

单位：Universitéde Montréal, Samsung Electronics, CIFAR Senior Fellow

译者：涂存超

链接：

https://arxiv.org/pdf/1608.00318v1.pdf（也可戳下方阅读原文）

导读

本文是来自Bengio组的ICLR2017的一篇工作。

语言的一个最基本的目的是交流知识。然而，目前的语言模型在融合已有知识方面的能力非常有限。这主要是因为这些语言模型主要是基于词语在统计上的共现情况来获取知识，然而大多数与知识相关的词都是极少出现的命名实体。在这篇论文中，我们提出了一种神经知识语言模型（Neural Knowledge Language Model, NKLM），来将知识图谱中的符号知识与RNN语言模型相结合。在语言模型中的每一步中，NKLM会预测当前观测词是基于哪一个事实生成的。然后，一个词语会从词表中生成，或者从知识图谱中拷贝出来。我们在一个新的WikiFacts数据集上训练和测试我们的模型。实验表明，NKLM显著的改善了perplexity，同时只生成很少数量的未知词（UNK）。此外，我们还证明了在该语言模型中，抽样的文本描述包含了当做未知词的命名实体。

模型

对于Wikipedia中的每一个主题（词条）k, Wk是该主题相应的描述序列，Fk是该主题的相关知识集合。其中，描述序列是一列与该主题相关的词，知识集合中的一个事实是一个包含（subject, relation, object）的三元组。其中subject与该主题一致。同时，我们利用object的实体描述信息作为事实的描述信息。

对于每个语料中的主题k，存在一个三元组序列，其中每一个元素xt为。其中，wt是观测词，at是基于的事实，，1表示wt是从事实描述信息中拷贝出来，0则是从词表中生成。NKLM的模型图如下图所示。

当处理主题k时，我们假设与该主题相关的知识集合Fk被加载到知识存储器中。其中，每一行的ai为一个事实的向量表示。我们通过预先训练TransE等知识图谱的表示模型，来得到每一个事实的向量表示。在训练时，对于这些事实的向量不会进行更新。需要注意的是，我们在知识存储器中额外加入了一个Not-a-Fact(NaF)的选项，对NaF对应的表示会进行更新。

在每一步预测一个词时，NKLM分为四个具体的步骤：

1.利用上一步的输出词以及事实作为当前的输入。具体来说，将上一步的三元组进行如下连接操作：