低频词过滤
来源:互联网 发布:儿童讲故事软件下载 编辑:程序博客网 时间:2024/04/29 09:52
低频词过滤
题目描述:请编写程序,从包含大量单词的文本中删除出现次数最少的单词。如果有多
个单词都出现最少的次数,则将这些单词都删除。
输入数据:程序读入已被命名为 corpus.txt 的一个大数据量的文本文件,该文件包含英
文单词和中文单词,词与词之间以一个或多个 whitespace 分隔。(为便于调试,您可下载
测试corpus.txt 文件,实际运行时我们会使用不同内容的输入文件。)
输出数据:在标准输出上打印删除了 corpus.txt 中出现次数最少的单词之后的文本(
词与词保持原来的顺序,仍以空格分隔)。
分析:删除出现最少单词数目的单词,文本按照原先的顺序输出
需要两边扫描:第一遍,确定低频词,第二遍,非低频词输出到标准终端
使用数据结构:Set(需要自己设计存储的内容和比较函数)或者map,如果使用java语言,使用TreeSet或者TreeMap。统计词频。然后找出最少次数的词。
本文代码略
- 低频词过滤
- 基于线性表和二叉排序树的低频词过滤系统
- 2005年百度之星程序设计大赛试题初赛题目四的解答(低频词过滤)
- 2005年百度之星程序设计大赛试题初赛题目 第四题(共四题 100 分):低频词过滤( 40 分)
- 高频低频
- 低频信号发生器的例程
- 图像 高频 低频
- Markdown 低频语法手册
- 图像的高频和低频
- 高低频的信号回流
- 图像低频高频区域分离
- 图像低频高频区域分离
- 低频信号为什么难以传输?
- 低频RFID读卡流程
- 图像的高频与低频
- 浅析过滤敏感词过滤算法(C++)
- XSS过滤(敏感词过滤)
- 居然还有过滤词
- 并查集---一点小的感悟
- 一些web开发中常用的、做成cs文件的js代码 - 转帖来的
- 网络操作系统
- linux字符设备驱动总结
- 【专题】关于敏捷测试,我们到底知道多少?
- 低频词过滤
- The audio codec for mp4 atom
- Python Qt4 Ubuntu环境搭建
- UVA 101
- MapReduce:超大机群上的简单数据处理
- Python Qt4 Ubuntu环境搭建
- Python Qt4 Ubuntu环境搭建
- Python Qt4 Ubuntu环境搭建
- 学习《简明Python教程》