词语在文档中的重要性 -- TF-IDF算法
来源:互联网 发布:一人多个淘宝店技巧 编辑:程序博客网 时间:2024/04/29 03:05
1、 对于一个单词来说,文档向量中的一个维度就是该文档中的一个单词,其值就是该词在文档中出现的次数。这称之为TF(Term Frequency)权重。
2、 设一个文档中的单词的集合为:WD = {w1, w2, w3 ….. wn},又设单词集中单词的频率为TF={f1,f2, f3…..fn}
文档频率DF是有某个单词出现的文档个数,单词在文档中出现的次数并不计入文档频率。那么一个单词的逆文档频率为:IDFi = 1 / DFi
因为IDF会很小而使乘积后所得的权重值过小。这种情况下,最好乘以一个常数来归一化IDF值。所以:IDFi = N / DFi
3、 那么向量中单词wi的权重Wi= TFi * IDFi = TFi* (N/DFi)
4、 因为IDFi= N / DFi 会掩盖在最终的单词权重中TF的影响,于是:
Wi = TFi * IDFi = TFi * log(N/DFi)
5、 为了归一化TF,所以TFi,j =fi,j / max(fk,j),其中fi,j是单词wi 在文档j中出现的频数;max(fk,j) 是单词在文档j中出现的频数最大值;
6、 所以:Wi= TFi * IDFi = TFi* log(N/DFi) = fi,j / max(fk,j) * log(N/DFi)
0 0
- 词语在文档中的重要性 -- TF-IDF算法
- spark mllib 中的tf-idf算法计算文档相似度
- TF-IDF 原始用去 计算判断 某个词语对文章的重要性
- 解说TF-IDF算法在SEO优化中的应用
- 使用spark的TF-IDF算法计算单词的重要性
- scikit-learn计算tf-idf词语权重
- 文本分析系列——词语权重算法:TF-IDF算法
- TF/IDF tf idf算法公式
- TF-IDF算法
- TF/IDF算法
- TF-IDF算法简述
- TF/IDF/DF算法
- tf-idf算法
- TF-IDF算法概念
- TF-IDF算法
- TF-IDF及其算法
- TF-IDF算法
- TF-IDF算法
- 《Android群英传》读书笔记——Android控件架构
- Eclipse无法解析类型问题的解决
- HDOJ 1115 Lifting the Stone (求多边形重心坐标)
- Svn内外网切换技巧
- Java进阶(异常处理)
- 词语在文档中的重要性 -- TF-IDF算法
- Java进阶(String与StringBuffer)
- 最近公共祖先 LCA (Lowest Common Ancestor)
- 欢迎使用CSDN-markdown编辑器
- 黑马程序员——Foundation框架——NSString常用方法
- Java进阶(File类)
- 猎人与猎狗的故事
- 【bzoj1208】[HNOI2004]宠物收养所 Splay
- JAVA HTTP POST参数为一个对象或数组