NLP深度学习 —— CS224学习笔记12

来源:互联网 发布:hbase快速清空表数据 编辑:程序博客网 时间:2024/06/06 02:30

1.2 语法松绑SU-RNN

不同类别输入的最优W不同。

对学习W的工作量加大,但性能提升。


现在模型受输入的语法类别条件约束。

我们决定类别的方法是通过一个简单的Probabilistic Context Free Grammar PCFG,通过计算Penn Tree Bank的统计摘要习得。例如The永远是DT.

我们初始化相同的W,默认是平均两个输入的向量。慢慢的模型学习到哪个向量更重要,以及旋转或缩放向量是否能提高性能。

例如DT-NP规则,会更重视名词而不是修饰它的定冠词。

SU-RNN超过此前的模型,但表达性仍然不够。

例如副词被定义为用于强调。如果我们只进行线性插值无法用一个向量来强调另一个向量,无法对其进行缩放。

1.3 MV-RNN 矩阵-向量递归神经网络

词表征不仅包括一个向量,也包括一个矩阵。

这样我们不仅能得到词的意义,也能学习它修饰另一个词的方法。


通过缩放相邻词的向量来得到修饰关系。

通过观察模型误差,一些关系仍然无法表达。

一是表示相反意思的词无法给予足够的重视,例如将most改为least应该完全改变句子的意思。

二是无法识别负负得正关系,例如加上not应该缓解原先的负面情绪。

三是转则关系,例如负面但是正面应该被视为正面意思表达。

1.4 RNTN 递归神经张量网络

我们还是将两个词向量或短语向量结合成一个向量。

我们先把它输入一个二次方程然后非线性处理,例如

注意V

我们计算

然后加上W_x输入非线性函数。

二次方程使我们可以表达词向量之间倍数类型的关系而不需要学习词矩阵。

RNTN是唯一能够解决上述问题的方法。

通过动态卷积神经网络我们可以取得超过RNTN表现的模型并不需要输入解析树。