pair rdd操作

来源:互联网 发布:lol全皮肤软件 编辑:程序博客网 时间:2024/04/20 13:19

pair rdd也就是键值对rdd,mapreduce框架是把数据转化为Key-value,再聚合为key-values的过程,在spark里key-value rdd(pair rdd)同样是最常用的,在每个应用中基本会用到

pair rdd里面的元素是Tuple2,pair rdd的transform函数很多,有对单个rdd的操作,也有对两个rdd的操作,对单个rdd的操作有reduceByKey(func),goupByKey(),combineBykey(),mapValues(),flatMapValues(func),keys(),values(),sortBykey(),两个rdd之间的操作有subtractbykey,join,rightOuterJoin,leftOuterJoin,cogroup()

pairrdd的action操作:countbykey,collectasmap,lookup

0 0
原创粉丝点击