TF-IDF算法学习
来源:互联网 发布:软件测试pdf 编辑:程序博客网 时间:2024/05/22 01:52
TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。
它的基本思想是:在一个文档集合S中,根据单个文档D中某个关键字k的出现频率以及集合中出现该关键字的文档总数,计算该关键字关于文档D的权值。
一、TF(Term Frequency),关键词的频率
关键词在该网页中出现的次数除以该网页的总字数。我们把这个商称为“关键词的频率”,或者单文本词频(term frequence, TF)。
TF(漏洞)
1、对关键词的次数进行归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)
2、停用词
很容易发现,如果一个关键词只在很少的文章中出现,通过它就容易锁定搜索目标,它的权重也就应该大。
反之,如果一个词在大量文章中出现,看到它仍然不很清楚要找什么内容,因此它的权重就应该小。
二、IDF(Inverse Document Frequency),逆文本频率
是一个关键词的权重。某一特定关键词的IDF,可以由总文件数目除以包含该关键词之文件的数目,再将得到的商取对数得到。
三、公式
其中,分子表示文档中该词的出现频率,分母表示文档中出现的总词数目。
其中分子表示文档总数,分母表示出现该关键词的文档数目
做权值计算时,可以选取log函数,sin函数,取平方根作区分函数。但实际证明选取log函数来作为文档权值的区分函数,可以很轻松的将停用词(stopword)区分开来,同时也可以将表征文档特征的短语很显式的反
映出来,将各个文档之间很小的区别进行放大,便于最后的检索。
- TF-IDF算法学习
- TF/IDF tf idf算法公式
- TF-IDF算法
- TF/IDF算法
- TF-IDF算法简述
- TF/IDF/DF算法
- tf-idf算法
- TF-IDF算法概念
- TF-IDF算法
- TF-IDF及其算法
- TF-IDF算法
- TF-IDF算法
- TF-IDF及其算法
- TF-IDF及其算法
- TF-IDF及其算法
- TF-IDF及其算法
- TF-IDF及其算法
- TF-IDF 算法
- Codeforces Round #388 (Div. 2)D. Leaving Auction
- C#对字符串进行排序 支持中文 笔画和拼音
- 【BZOJ 2243】[SDOI2011]染色
- docker(12):alpinelinux安装tomcat
- Autonomy IDOL
- TF-IDF算法学习
- Propreties使用时路径问题
- codeforces 388 div2 749B - Parallelogram is Back
- oracle alter table,comment
- 异步接收子线程的返回值
- Android开发之应用向导页
- AR视频制作
- ssm框架学习---mybatis中延迟加载实现
- Storm——3、 Storm Trident API 实践