《大数据》笔记 TF.IDF
来源:互联网 发布:手机恶意软件排行 编辑:程序博客网 时间:2024/04/30 12:25
TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。
TF = Term Frequency
反映关键词在某篇文档中出现的频率,频率越高,自然就越相关
TF不是(关键词出现个数)/(所有词个数),而是做了归一化的(关键词出现个数)/(这篇文档中出现次数最多的那个词的出现个数)。
IDF = Inverse Document Frequency
首先看DF
DF是(出现了关键词的文档数)/(总文档数)
因此DF越大,说明这个词越常见,而常见的词不能很好的反映相关度(比如”的“字可能在某篇文档处出现了100次,但它几乎在所有文档中都出现,此时的DF=1,说明”的“字不能很好的反映相关度)
IDF =log (1/(我所定义的DF)) 越高相关度越大
TF * IDF反映词与文档的相关度,越大越相关。
如”故乡的云“,分为”故乡“,”的“,”云“,TF.IDF为它们的权重,TF.IDF越大说明这个词越重要,由常识可知,”故乡“和“云”的TF.IDF将大于"的"字,所以前两个词是反映文档内容的关键词。
- 《大数据》笔记 TF.IDF
- TF-IDF笔记
- 笔记-TF-IDF
- TF/IDF概念学习笔记
- 离线轻量级大数据平台Spark之MLib机器学习库TF-IDF实例
- TF-IDF的java实现(权重排序,可用来处理大数据集)
- 大数据及人工智能基础系列3 文本挖掘的TF-IDF计算
- TF/IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- TF-IDF
- Farey序列与Stern-Brocot树
- D_backup and restore(物理与逻辑备份)与重建
- PowerDesigner导出表到word
- 九度OJ 1018 统计同成绩学生人数
- 【编程之美】求二进制数中1的个数
- 《大数据》笔记 TF.IDF
- 手机客户端功能概要
- 编程中一些比较容易出错的地方
- hdu 4556 Stern-Brocot
- 金山西山居初赛第四场
- 为什么一个java源文件中只能有一个public类
- 深入了解php底层机制
- 网络编程概述
- STL实用入门教程(1)----学习