低频词过滤

来源:互联网 发布:儿童讲故事软件下载 编辑:程序博客网 时间:2024/04/29 09:52

低频词过滤

题目描述:请编写程序,从包含大量单词的文本中删除出现次数最少的单词。如果有多
个单词都出现最少的次数,则将这些单词都删除。

输入数据:程序读入已被命名为 corpus.txt 的一个大数据量的文本文件,该文件包含英
文单词和中文单词,词与词之间以一个或多个 whitespace 分隔。(为便于调试,您可下载
测试corpus.txt 文件,实际运行时我们会使用不同内容的输入文件。)

输出数据:在标准输出上打印删除了 corpus.txt 中出现次数最少的单词之后的文本(
词与词保持原来的顺序,仍以空格分隔)。

 

分析:删除出现最少单词数目的单词,文本按照原先的顺序输出

 

需要两边扫描:第一遍,确定低频词,第二遍,非低频词输出到标准终端

使用数据结构:Set(需要自己设计存储的内容和比较函数)或者map,如果使用java语言,使用TreeSet或者TreeMap。统计词频。然后找出最少次数的词。

本文代码略