自然语言处理(五 文本相似度)
来源:互联网 发布:淘宝买家大尺度晒图 编辑:程序博客网 时间:2024/05/02 07:22
- 简单共有词判断模型
- TFIDF向量表示
- TFIDFWord2vec
- LMSentence Embedding表示
简单共有词判断模型
假设现在有文本A和B,
TFIDF向量表示
上述共有词方式,只利用了词语的信息,却忽略了词频信息,引入TFIDF将词语向量化,既考虑了Term Frequency词频,又考虑了词语在整个文档中的分布情况。文本A和文本B可以分别表示为:
其中N表示词语的总数(或词典大小),
TFIDF+Word2vec
TFIDF未给出词语与词语之间的关系,认为每个词语都是相互独立的个体,但有些词语是同义词,有些词语是反义词。需要表征词语之间意思相距程度。此处选用word2vec,利用额外的大预料为每个词语训练一个word2vec向量表示。该向量可以表示矩阵为
由上一段知道,TFIDF是一个M*N的向量,其中M表示文档的总数,N表示词典的大小。因此可以使用向量M表示文档(A或B),如下所示:
M是一个M*K的矩阵,即每个文档可以表示为M的一个行向量(K维)。再使用该向量用于计算文本之间的相似度。
LM+Sentence Embedding表示
使用Deep Learning(LSTM)的方法对一个大语料训练一个Language Model,然后使用BiRNN模型训练得到句子的表达
阅读全文
0 0
- 自然语言处理(五 文本相似度)
- 非主流自然语言处理——遗忘算法系列(五):文本相似度
- python自然语言处理-----计算文本相似度
- 自然语言处理的中文文本相似度
- 【python】python自然语言处理-----计算中文文本相似度
- 自然语言处理入门(1)——文本相似度计算
- python与自然语言处理(五):中文文本词云
- 自然语言处理(2)——文档相似度计算
- 五、自然语言处理中的文本分类
- 《用Python进行自然语言处理》代码笔记(五):第七章:从文本提取信息
- Python自然语言处理第二章-2.5WordNet(IV)——语义相似度
- 自然语言处理(五)深度学习
- 文本挖掘和自然语言处理
- 自然语言处理之:文本分类
- 文本分析--NLTK自然语言处理
- 自然语言处理与文本检索
- 统计自然语言处理--文本分类
- Pyhon 自然语言处理(二)文本预处理流程
- Google 将于明年彻底关闭 Chrome Apps,以后就是 PWA 的天下了
- 栈和队列之经典(下)
- Linux(CentOs6.5) 部署Dlib
- bzoj3039: 玉蟾宫
- python 过滤xml非法字符 :not well-formed (invalid token)错误处理
- 自然语言处理(五 文本相似度)
- canvas(图像)
- 科技文档,报告等书写规格
- Android从上往下滑动或从下往上滑动结束Activity
- pintos (3) --Priority Inversion
- 【C#编程最佳实践 五】项目与代码流程实践
- 购物车可增加减少数量可添加
- SPSS考前突击
- 关于Hbase的一些优化