向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)
来源:互联网 发布:诺基亚5230软件下载 编辑:程序博客网 时间:2024/05/03 22:01
参考:http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html
在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断。
1、 向量空间模式介绍
2、 余弦定理
在空间模型中,两条线的夹角越小,它们的余弦值就越大,而它们越相似(重叠或者平行)。
从上面看出空间模型中两条连线夹角的余弦值为:
举一个具体的例子,假如文档X和文档Y对应向量分别是x1,x2,...,x64000 和y1,y2,...,y64000,
那么它们夹角的余弦等于
3、 文本挖掘中把文档转换为向量空间
在文本挖掘中,对文档A分词,得到A1,A2,….An,计算得到分词的Tf-Idf: k1,k2,…kn;同样对文档C分词,得到C1,C2…Cn, 计算得到分词的Tf-Idf:d1,d2,…dn。以tf-idf作为分词的权重,则得到文档A的向量P={k1A1 ,k2A2…knAn},转换为P={x1,x2,…Xn}文档C的向量Z={d1C1,d2C2…dnCn},转换为Z={y1,y2….yn},计算文档A和C的相似度就是在向量空间模型中计算它们余弦值.
- 向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)
- 向量空间模型(VSM)的余弦定理公式(cos)
- 向量空间模型(VSM)的余弦定理公式(cos)
- 向量空间模型VSM和余弦距离
- tf-idf权值的向量表示、余弦相似度
- Jackcard相似度和余弦相似度(向量空间模型)的java实现
- Jackcard相似度和余弦相似度(向量空间模型)的java实现
- 向量空间模型(VSM)一种文本相似度算法
- 文本相似度算法(余弦定理)
- 文本相似度算法(余弦定理)
- 文本相似度算法(余弦定理)
- 向量空间模型(VSM)
- 相似度算法:余弦定理
- 计算两向量的欧式距离,余弦相似度
- 基于向量余弦的文件相似度计算
- 计算两向量的欧式距离,余弦相似度
- 改进后的向量空间模型(VSM)
- 简简单单的说明向量空间模型(VSM)
- 公钥 私钥 CA
- 使用C语言操作环境变量
- asp.net 防止二次提交 以及UseSubmitBehavior属性
- mysql-5.6.10.tar.gz安装
- 国外SEO工具大全
- 向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)
- msyql中文乱码问题
- adb server is out of date. killing...
- 螺旋队列---算法分析
- vc++ string处理大全
- Android开发Info类总结
- Storyboard的简单使用
- jQuery开发的简单方法
- 木马编写小技巧