微软笔试题 统计英文电子书中出现次数最多的k个单词
来源:互联网 发布:ubuntu 16.04应用商店 编辑:程序博客网 时间:2024/04/30 02:55
在v_JULY_v的文章中找到了这个问题的解法后用C++实现了一下,发现C++的代码非常的简洁。
主要用到了标准库中的hash_map,优先级队列priority_queue。
算法的思路是:
- 从头到尾遍历文件,从文件中读取遍历到的每一个单词。
- 把遍历到的单词放到hash_map中,并统计这个单词出现的次数。
- 遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。
- 当优先级队列的元素个数超过k个时就把元素级别最低的那个元素从队列中取出,这样始终保持队列的元素是k个。
- 遍历完hash_map,则队列中就剩下了出现次数最多的那k个元素。
具体实现和结果如下:
//出现次数最多的是个单词
- //出现次数最多的是个单词
- void top_k_words()
- {
- timer t;
- ifstream fin;
- fin.open("modern c.txt");
- if (!fin)
- {
- cout<<"can nont open file"<<endl;
- }
- string s;
- hash_map<string,int> countwords;
- while (true)
- {
- fin>>s;
- if (fin.eof())
- {
- break;
- }
- countwords[s]++;
- }
- cout<<"单词总数 (重复的不计数):"<<countwords.size()<<endl;
- priority_queue<pair<int,string>,vector<pair<int,string>>,greater<pair<int,string>>> countmax;
- for(hash_map<string,int>::const_iterator i=countwords.begin();
- i!=countwords.end();i++)
- {
- countmax.push(make_pair(i->second,i->first));
- if (countmax.size()>10)
- {
- countmax.pop();
- }
- }
- while(!countmax.empty())
- {
- cout<<countmax.top().second<<" "<<countmax.top().first<<endl;
- countmax.pop();
- }
- cout<<"time elapsed "<<t.elapsed()<<endl;
- }
0 0
- 微软笔试题 统计英文电子书中出现次数最多的k个单词
- TOP K算法(微软笔试题 统计英文电子书中出现次数最多的k个单词)
- 统计一篇英文文章中出现次数最多的10个单词
- JAVA-统计英文句子中出现次数最多的单词和出现的次数
- 转载:统计一串英文中出现次数最多的单词以及次数;
- NIO MappedByteBuffer读大文件并统计出现次数最多的TOP K个单词
- 统计一篇英文文章中出现次数最多的前五个单词
- 每日一题(24)——统计文本中出现次数最多的K个词(Top K)
- sort +awk+uniq 统计文件中出现次数最多的前10个单词
- 统计文件中出现次数最多的前10个单词
- 统计文件中出现次数最多的前10个单词
- sort +awk+uniq 统计文件中出现次数最多的前10个单词
- sort +awk+uniq 统计文件中出现次数最多的前10个单词
- python统计《悲惨世界》中出现次数最多的20个单词并绘制柱状图
- Linux命令经典面试题:统计文件中出现次数最多的前10个单词
- sort +awk+uniq 统计文件中出现次数最多的前10个单词
- 统计文件中出现次数最多的前10个单词
- 统计文件中出现次数最多的前10个单词
- 记录Linux的点点滴滴
- C++插入排序法(Insertion Sort)
- 同步/异步与阻塞/非阻塞的区别
- UIGestureRecognizer
- 从杂乱到有序并不简单--排序算法之一冒泡法
- 微软笔试题 统计英文电子书中出现次数最多的k个单词
- 最短路问题总结
- 初学ucore操统笔记(1)
- P1190 繁忙的都市(Kruskal)
- 黑马程序员_IO流(三)
- Linux学习笔记(三)
- poj1330 求二叉树的公共父节点
- Erlang/OTP并发编程实例(二)
- 我做的仓库管理系统