词向量相关

来源:互联网 发布:jsp购物网站源码 编辑:程序博客网 时间:2024/06/15 03:57

1.tf-idf

一般来说,tf是词频,比如一句话(this is is my name),is的词频就是2/5


D为训练文档的总文档数,上下加一是为了防止分母为0

我们可以将训练集转化为一个矩阵,关于tf-idf矩阵张什么样,可以参看这篇博文:

http://www.voidcn.com/article/p-bbabkmsv-pt.html

,每一行是一个文档,行维度为总词汇量(类似于one hot)

tf-idf应用:

1.计算文本相似度(一个文本是一个向量,向量余弦)

2.文本分类(根据得到的tf-idf矩阵作为特征矩阵,选取相应的分类器)


2.word2vec

原理:



输入为onehot,目标结果是相应词汇对应的上下文概率,隐含层输出为词向量

应用:

1.RNN的输入(似乎效果不怎么好,和字向量差别不大)

2,计算网页相似度(比如用户通常点击网页顺序是A,B,C;或A,D,C。则训练出的网页向量B和C相近)

似乎还有什么doc2vec可以把一个段落转化为向量