文章学习和解读

来源：互联网发布：vasp5.2软件下载编辑：程序博客网时间：2024/06/04 19:37

文章原址：https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=205093535&idx=1&sn=3dffe164ea2c44a8b258cd323a40f80f&scene=1&srcid=0217eHvff68IpIdPHR0OeMh7&pass_ticket=gzuHripJfZcuK92iJ3CAhwjD2GobKkjvJE2s%2BPpn2V1ecy4PsdshIkTr3j8bA623#rd

1，前置知识储备

tf-idf算法的来源和推导，详见博客，http://www.ahathinking.com/ 2012年的博文《TF-IDF起源和理论推导》（http://www.ahathinking.com/archives/163.html）

2，TF-IDF 算法，简单来说就是用词频和反文档频率来衡量。TFIDF=TF*IDF

3，向量空间模型 VSM 应用于著名的SMART文本检索，向量空间模型（或词组向量模型) 是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。文件（语料）被视为索引词（关键词）形成的多次元向量空间，索引词的集合通常为文件中至少出现过一次的词组。模型假设，文件和搜寻词的相关程度，可以经由比较每个文件(向量）和检索词（向量）的夹角偏差程度而得知。

①两个向量的数量积（内积、点积）是一个数量（没有方向），记作a·b。若a、b不共线，则

；

4，相似性度量，数值数据是度量其在欧式空间的距离，分类型的数据，这是与其“取值相同的属性个数“有关。

***总结

实际问题：文章相似度，文档分类，关键词排名

原理：将文档视作文档空间的向量，度量向量之间的相似性，去给文档分类。

方法：最常用的是余弦距离。

重点！！！

文档视作多维空间的向量集合，维度就是词项，每个维度上的取值，就是词项在该文档中的权重（通常用TF-IDF计算），文档相似度，可以化作检验向量的相似度，而向量的相似度，可以用向量的夹角余弦值来衡量（原理是向量的余弦定理）

看了两天的文章，就是为了看懂这么点东西。。。呵呵

文本相似度计算的处理流程是:

1.对所有文章进行分词

2.分词的同时计算各个词的tf值

3.所有文章分词完毕后计算idf值

4.生成每篇文章对应的n维向量(n是切分出来的词数,向量的项就是各个词的tf-idf值)

5.对文章的向量两篇两篇代入余弦定理公式计算,得出的cos值就是它们之间的相似度了

接下来解决的是怎么实现的问题了。

4，余弦算法：http://my.oschina.net/BreathL/blog/42477

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html（TF-IDF算法与余弦算法的应用-找出相似的文章）

5，文本相似度算法

http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html

0 0