Reproducing and learning new algebraic operations on word embeddings using genetic programming

来源：互联网发布：鲨鱼网络编辑：程序博客网时间：2024/06/11 10:46

简介

现在生成的词向量能够利用一些代数运算，如向量的加减，来捕获词之间的语义关系，典型的一个例子就是“King”-“Man” + “woman” = “queen”。在NLP中，也叫做类比实验（analogy test），其一般形式是“a is to b as c is to ?”。不过正如例子中展示的，现在一般使用的都是简单的加减法。但是，这并不表示不存在其他的运算也能捕获这种语义关系而且可能效果更好。该文试图做的就是这么一件事，而且采用的算法是遗传算法，一种借鉴了生物上适者生存，基因交叉突变的现象，目的是在一个空间中寻找最优解。

遗传算法(genetic programming)

遗传算法的思想和生物上的遗传和适者生存是相一致的。首先，群体(population)里包含个体(individual)，通过一个适应函数计算个体的适应度(fitness)，从中选择适应度较高的个体作为下一代的母体。在选择后，根据概率选择其中一些个体进行交叉操作(crossover)，然后根据另一个概率，对每个个体实行变异(mutation)操作。其一般算法流程如下图所示

具体实现

在遗传算法中，关键是三个遗传算子：适应度函数的定义，交叉操作以及变异操作。存在两个关键的参数，即交叉和变异所依据的概率。在这里，是要产生一组能够捕获词之间语义关系的运算，而这种运算的表示，用树进行表示是很合理的，其结构如下所示

add表示加法，sub表示减法运算，ARG等表示对应的运算对象。这也是群体中的一个个体，也就是说，群体包括的个体都是这些具体的运算规则。

适应度计算

该文的目的是要产生一组能在类比实验上表现良好的运算规则，因此适应度的计算就应该与类比实验的结果相关联。首先，将数据集分为训练集和测试集，群体中的运算规则将被用来创建与训练集中的三个词相依赖的向量，并利用所得到的向量，在所有词向量中寻找与之最接近的词，如果所找到的词刚好是数据集中的第4个词，就表示回答正确。适应度就是回答正确的比例，比例越高，适应度也就越高。

交叉变异

在计算完适应度之后，就可以选择用来产生下一代的母体，而后进行交叉变异。交叉变异都是依据某个概率进行，在该文中，概率都设置为0.5。关于交叉操作，是交换两棵树某一节点的子树。变异就是将某一节点的子树用一个随机生成的子树进行替换。

计算代价

毫无疑问，该算法的计算代价是很大的，且随着规模的增大而增大。该算法的计算代价主要在于要反复寻找与前三个词相关联的词。因此，该文提出了若干减低计算代价的方法

控制词典中的搜索空间，在用某个运算规则得到一个向量后，控制在词典中寻找最接近的词的空间。
在训练集中进行采样，以得到更小的一个子集，并在该子集上训练
设置提前中止的条件，主要有两个。1、A NAN output is generated for any of the questions. 2、If after at least ten questions have been “answered” the proportion of correctly answered questions is at some point below 0.05. In this case it is clearly a poorly performing program.

阅读全文

0 0