文章学习和解读

来源:互联网 发布:vasp5.2软件下载 编辑:程序博客网 时间:2024/06/04 19:37

文章原址:https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=205093535&idx=1&sn=3dffe164ea2c44a8b258cd323a40f80f&scene=1&srcid=0217eHvff68IpIdPHR0OeMh7&pass_ticket=gzuHripJfZcuK92iJ3CAhwjD2GobKkjvJE2s%2BPpn2V1ecy4PsdshIkTr3j8bA623#rd


1,前置知识储备

tf-idf算法的来源和推导,详见博客,http://www.ahathinking.com/   2012年的博文《TF-IDF起源和理论推导》(http://www.ahathinking.com/archives/163.html)


2,TF-IDF 算法,简单来说就是用词频和反文档频率来衡量。TFIDF=TF*IDF


3,向量空间模型 VSM   应用于著名的SMART文本检索向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型。文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。

①两个向量的数量积内积点积)是一个数量(没有方向),记作a·b。若ab不共线,则

 

4,相似性度量,数值数据是度量其在欧式空间的距离,分类型的数据,这是与其“取值相同的属性个数“有关。

***总结

实际问题:文章相似度,文档分类,关键词排名

原理:将文档视作文档空间的向量,度量向量之间的相似性,去给文档分类。

方法:最常用的是余弦距离。


重点!!!

文档视作多维空间的向量集合,维度就是词项,每个维度上的取值,就是词项在该文档中的权重(通常用TF-IDF计算),文档相似度,可以化作检验向量的相似度,而向量的相似度,可以用向量的夹角余弦值来衡量(原理是向量的余弦定理)

看了两天的文章,就是为了看懂这么点东西。。。呵呵


文本相似度计算的处理流程是:

1.对所有文章进行分词

2.分词的同时计算各个词的tf值

3.所有文章分词完毕后计算idf值

4.生成每篇文章对应的n维向量(n是切分出来的词数,向量的项就是各个词的tf-idf值)

5.对文章的向量两篇两篇代入余弦定理公式计算,得出的cos值就是它们之间的相似度了


接下来解决的是怎么实现的问题了。

4,余弦算法:http://my.oschina.net/BreathL/blog/42477

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html(TF-IDF算法与余弦算法的应用-找出相似的文章)

5,文本相似度算法

http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html



0 0