三千记之知识备忘

来源:互联网 发布:java 线程安全的list 编辑:程序博客网 时间:2024/04/29 06:52

1、hive 中 group by 优化 count(distinct) 文章:
== 当时用distinct的时候,mapreduce会把所有的数据都shuffle到一个reduce上面,使用group by的话,会把数据分散到reduce上:
[1] http://blog.csdn.net/wisgood/article/details/18040363
[2] http://blog.csdn.net/xiaoshunzi111/article/details/68484426


2、shuffle的过程及作用:
[1]
[2]


3、hashmap的数据结构及原理:
== 是由数组+链表组成的哈希表,为的是数据查找方便,同时又不用那么多的存储空间。
[1] http://blog.csdn.net/vking_wang/article/details/14166593


4、kafka的分区与broker问题:
== 是。
[1] http://blog.csdn.net/vking_wang/article/details/14166593

原创粉丝点击