深度学习在短文本相似中的应用(Sentence2Vector)——qjzcy的博客

来源:互联网 发布:阿里云dns地址 编辑:程序博客网 时间:2024/06/05 14:57

我们的工作中经常遇到如何求两个句子的相似,比如如何判断搜索query和广告query的相似,搜索query和app的相似,再比如短文本相似的问答系统等等。有什么好的方法呢,这里是个人的一点总结吧。


目录:
一、 先贴结果
二、 短文本相似常用的方法
三、主题模型的应用
四、 深度学习的模型搭建


(一)老样子先贴结果吧,样本是处理后的搜索query和广告点击query,准确率在95%左右
这里写图片描述
图2的格式为标签(相似为1,不相似为0)、 预测标签、 某个值(大于0为预测标签为1)、 搜索query @ 广告query
这里写图片描述

(二)我们常用的方法:
1、直接法:对比短文本中的一些词重合个数,或者关键词的重合个数,
2、量空间模型:对一个句子生成向量空间模型(比如用tfidf作为权重),用距离公式(比如余弦)求距离
3、主题模型求距离:比如主题模型和比较火的word2vector模型

(三)主题模型的应用
到里主题模型这里,我们其实有个问题主题模型怎么用?拿word2vector模型来说,它提供每个词的向量,用这个向量可以很好的计算两个词之间的相似度,可是一个句子中有好几个词怎么,怎么计算呢?
几个方法:
1、 把每个词的向量叠加,这个方法有些粗暴,但是简单易行。
2、 第一种方法可行的话,很容易想到如果我们能找到句子中的重点词,给它加权效果是不是更好,但是重点词怎么来,又是一个问题(tfidf显然不是最优,安利一个我做的重点词方法:http://blog.csdn.net/qjzcy/article/details/51737059)。
3、 把向量直接串起来变成一个长向量,这个方法没实验,但是想想就有好多问题,或者偷懒的说这么简单的方法都没听说人用肯定效果不好^_^。
4、 如果句子本身的词可以组成一个1维的空间向量,每个词的主题又有一个维度的向量。很自然我们可以想到可以用卷积来解决这个问题
(四) 深度学习的模型搭建
问题:既然我们想用深度学习的模型,那么怎么让模型识别我们的初始数据?
我们可以这样:
1、 每个句子分别卷积成生成一个向量,利用这个向量再求距离
比如微软的这个模型
这里写图片描述
2、把句子也作为一个特征加到词组里一起训练
比如这个论文沿用了word2vector的思路:
Distributed Representations of Sentences and Documents
这里写图片描述
3、 我这么做:把两个句子拼接成一个句子,用标识隔开,这样形成一个2D结构的数据作为输入,用cnn训练
我更喜欢这种方法,因为这样数据结构更加简单,可以让我们专心的把注意力集中在模型其他结构方面。
问题解决了,我们放到模型里跑一下,duang!几乎没做什么模型上的优化就能有93%左右的准确率,果然对深度学习还是要有一些迷信才好。

另外一种LSTM的尝试:
利用lstm模型实现短文本主题相似——qjzcy的博客

0 0
原创粉丝点击