向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)

来源:互联网 发布:诺基亚5230软件下载 编辑:程序博客网 时间:2024/05/03 22:01

参考:http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html


在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断。

 

 

1、  向量空间模式介绍

 






 

2、  余弦定理

 

在空间模型中,两条线的夹角越小,它们的余弦值就越大,而它们越相似(重叠或者平行)。

 

从上面看出空间模型中两条连线夹角的余弦值为:


举一个具体的例子,假如文档X和文档Y对应向量分别是x1,x2,...,x64000 和y1,y2,...,y64000,

那么它们夹角的余弦等于



 

3、  文本挖掘中把文档转换为向量空间

          在文本挖掘中,对文档A分词,得到A1,A2,….An,计算得到分词的Tf-Idf: k1,k2,…kn;同样对文档C分词,得到C1,C2…Cn, 计算得到分词的Tf-Idf:d1,d2,…dn。以tf-idf作为分词的权重,则得到文档A的向量P={k1A1 ,k2A2…knAn},转换为P={x1,x2,…Xn}文档C的向量Z={d1C1,d2C2…dnCn},转换为Z={y1,y2….yn},计算文档A和C的相似度就是在向量空间模型中计算它们余弦值.