经典topK问题
来源:互联网 发布:网络运维与管理 邮发 编辑:程序博客网 时间:2024/06/05 22:39
hadoop的入门问题是wordcount,而经典问题是TopK计算,比如热词,搜索链接热度等都是topK问题的变种
TopK问题使用MapReduce解决需要2步,而使用Tez解决可以缩减为一步,使用Tez其实也就是将2步MapReduce转化成DAG,一步完成,Tez大量复用了MapReduce代码。
这里我们讨论使用MapReduce解决问题
第一步wordcount,终于理解“道格”,把wordcount作为MapReduce编程的实例的用心了,哈哈,wordcount这里不再赘述
第二部翻转key和value
自己写一个key的排序编码,一下是代码:
<span style="font-family:Microsoft YaHei;font-size:14px;">/*** * 按词频降序排序 * 的类 * * **/public static class DescSort extends WritableComparator{ public DescSort() { super(IntWritable.class,true);//注册排序组件} @Overridepublic int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,int arg4, int arg5) {return -super.compare(arg0, arg1, arg2, arg3, arg4, arg5);//注意使用负号来完成降序} @Overridepublic int compare(Object a, Object b) { return -super.compare(a, b);//注意使用负号来完成降序}}</span>这样就可以解决topK这个问题了,这里写的比较简略,理解概念,自行修改
0 0
- 经典topK问题
- topK问题
- topK问题
- topk 问题
- TopK问题
- topK问题
- TopK问题
- TopK问题
- topK问题之我见
- 求topK问题
- 一道TOPK问题
- 漫谈topK 问题
- topk问题C++实现
- TopK问题详解
- make_heap topk 问题
- TopK问题 Java代码
- 求TopK问题
- Spark TopK问题解法
- hibernate 注解使用异常解决方法
- 如何通过Zabbix获取监控数据?
- 翻转吧!字符串
- PHP学习笔记
- linux常用命令
- 经典topK问题
- cocos2d-x3.2中fatal error: cocostudio/CocoStudio.h: No such file or directory
- ShutDown用法及参数
- 黑马程序员_java_关于静态方法
- VC默认链接库冲突
- setsocketopt
- linux内核中CONFIG_FHANDLE=y的作用
- 喷水装置
- spring3+struts2+mybatis3 -2