文章标题
来源:互联网 发布:软件外包开发 编辑:程序博客网 时间:2024/06/03 15:37
TF-IDF:计算文档词频的加权算法
TF
TF:term frequency 词频
IDF
逆文档率
log(总文档数/(含词频的文档数+1))
TF-IDF
=TF*IDF
以上是计算词频的权重
余弦相似(这个是计算文档的相似性)
a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大
余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab
0 0
- 文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题 文章标题 文章标题 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- 文章标题
- preloader_exec整理
- JAVA基础【3.10】《Java核心技术1》Java的基本程序设计结构-数组
- wld_start
- umask函数linux
- MFC打开文件对话框
- 文章标题
- Genymotion添加devices时出现Connection timeout occurred的解决办法
- 电子工程师的基本素养--英文篇
- widgetbin.dll
- 看见别人签名里的话
- 详解微信小程序开发教程
- caffe利用训练好的模型进行实际测试
- 控制寄存器(CR0,CR1,CR2,CR3)和CR4
- 2017超星慕课尔雅古希腊的思想世界答案题库