新闻标题生成模型-随便整理一下

来源：互联网发布：牛顿环的实验数据编辑：程序博客网时间：2024/06/05 01:56

目前的思路很简单，就是一个Seq2Seq的模型，本质上是一个AutoEncoder。
模型的输入是一个字符序列（1维向量），是新闻的正文。
首先将序列中的词进行embedding（这里对中文处理，用的是字向量，没有做分词），变成2维的 (word_cnt, dim)。（dim是字向量的维度）
然后encoder是一层LSTM，取最后一步输出向量作为context vector（好像是这个名字？），是1维的 (dim)。之后decoder部分是一层LSTM，每一步输入都为context vector，取每一步输出，是2维的 (title_len, dim)。
最后加一层Dense层，把输出的“词向量”（dim维的向量，每个对应一个词）映射到vocab_size维，然后进行softmax，作为输出词的概率分布。这里的输出为 (title_len, vocab_size)。
Loss采用的是cross_entropy（negative log-likelihood），即对于真正标题中每个正确的词被取到的概率P，取-log，再平均，作为一个样本（一则新闻）的loss函数。

目前简单起见，正文部分仅截取前30个字，标题仅截取前10个字，并且输出标题也限定为10个字。而且一个经验性的处理是把输入、输出都倒过来，也就是正文输入序列反序输入；最后输出的标题也会是反序的，因此再反序一次，变为正序。这样据说效果比较好，实验结果似乎也确实如此。

具体实现使用Keras，目前LSTM用的最简单的，没有双向，也没有attention（暂时不会搞）。Loss函数的实现稍微遇到一点麻烦，因为这里一个样本的输出是2维的（每个词的预测概率分布），因此没法用原生的cross_entropy，需要自定义。需要注意Keras里面自定义Loss函数，其参数y_true和y_pred必须是相同的维度（3维对3维，包括batch_size这一个维度）（暂不确定是否要求相同的shape）。因此需要对于数据中的标题部分做处理，不能直接用字的id作为标签，需要转化为one-hot编码，这样才能与模型的输出保持相同维度。Loss函数实现如下，其实看起来很简单……只是当时不知道需要相同维度，坑了很久。

def myLoss(y_true, y_pred):    loss = K.mean(K.mean(K.batch_dot(y_true, -K.log(y_pred + 1e-6), axes=2)))    return loss

目前模型能正确运行，但是输出还不能看，基本都是同一个字，大多数是“国”字重复10遍。对于日本新闻可能是“日”字重复10遍，中国的可能是“中”字重复10遍。最好的一个输出某个俄罗斯的新闻，结果是“俄” * 9 + “国”。但这个仍然是不能看。

下一步的话，可以先尝试简单的改进，多堆几层LSTM。还不行的话，尝试加入双向LSTM。之后再去尝试attention。

阅读全文

0 0