计算jieba分词的Tf-idf值
来源:互联网 发布:mac ps返回 编辑:程序博客网 时间:2024/05/22 06:54
TF-IDF(termfrequency–inverse document
frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。在文本挖掘中,要对文本库分词,而分词后需要对个每个分词计算它的权重,而这个权重可以使用TF-IDF计算。
TF(term
frequency)就是分词出现的频率:该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。
例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/500=2/50=0.04
IDF(inversedocument frequency)逆向文件频率,一个文档库中,一个分词出现在的文档数越少越能和其它文档区别开来。算法是:
log((总文档数/出现该分词的文档数)+0.01) ;(注加上0.01是为了防止log计算返回值为0)。
例如:一个文档库中总共有50篇文档,2篇文档中出现过“Hello”分词,则idf是: Idf = log(50/2 + 0.01) = log(25.01)=1.39811369 TF-IDF结合计算就是 tf*idf,比如上面的“Hello”分词例子中: TF-IDF = tf* idf = (20/500)* log(50/2 + 0.01)= 0.04*1.39811369=0.0559245476
参考文档
- 计算jieba分词的Tf-idf值
- 计算分词的Tf-idf值
- 的Tf-idf值分词计算列举
- 计算分词的tf*idf算法
- python 分词计算文档TF-IDF值并排序
- 针对新闻标签提取的tf-idf优化算法1.0版本——基于jieba分词实现
- TF-IDF 的计算二
- Java计算TF-IDF值
- 文本分析--关键词获取(jieba分词器,TF-IDF模型)
- TF-IDF与余弦相似性的计算
- 中文分词和TF-IDF
- 中文分词和TF-IDF
- 中文分词和TF-IDF
- 文本分词与TF-IDF
- TF-IDF计算一
- TF-IDF计算三
- TF-IDF计算四
- TF-IDF计算 Python
- java设计模式—工厂模式
- Unable to load component class org.sonar.scanner.repository.ProjectRepositories 500
- BAP——一个二进制程序分析平台
- display:none与visible:hidden
- 机器学习算法中不得不知的欠拟合与过拟合问题
- 计算jieba分词的Tf-idf值
- ref 的使用。
- Kotlin学习笔记
- 判断是否输出*号
- (三)多线程之间实现通讯
- Qt Creator快捷键
- ActiveMQ入门
- 习题4.6
- Hive UDTF开发指南