TF-IDF判重算法在小规模和大规模数据集上的应用

来源：互联网发布：宏大叙事知乎编辑：程序博客网时间：2024/06/06 16:51

1.将所有文档读入内存,对每篇文章分词，并保存每篇文章中每个词出现的频度(TF)和每篇文章出现过的所有词(用来计算IDF)

2.统计所有文档出现过的所有词作为语料库，对每个词计算ln(N/n+1)作为IDF值

3.对每篇文章的每个词用TF*IDF值得到它的权重分值

4.取前n个作为关键词

分布式:

1.以每10W个文档为一个分片，保存每篇文章的分词和词频，保存每个分片中的每个词出现在文档中的次数

2.统计所有分片，计算每个词的idf值

3...

•优点

–实现简单，得出的结果与实际情况比较符合。

•缺点

–不够全面，单纯以"词频"衡量一个词的重要性，有时重要的词可能出现次数并不多。

–无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同

0 0