程序博客网 > 百度怎样做优化推广

Spark开发-WordCount流程详细讲解

来源：互联网发布：百度怎样做优化推广编辑：程序博客网时间：2024/05/16 19:48

核心
wordcount流程详细讲解

有一份这样的数据
hello xlucas hello hadoop
hello hadoop
hello spark
hello kafka

最后的结果是这样的
hello:5
hadoop:2
spark:1
xlucas:1
kafka:1

那么这里spark主要做了哪些事情？

我们先从textFile可以看到这里调用了HadoopFile
这里写图片描述

从HadoopFile这里我们可以看到，创建了一个HadoopRDD的实例
这里写图片描述

在去掉Key的时候会做Map操作，这个map会返回一个MapPartitionsRDD
这里写图片描述

这里的flatMap也会返回一个MapPartitionsRDD
这里写图片描述

在做reduceByKey的时候，其实调用了combineByKeyWithClassTag
这里写图片描述

我们可以看到combineByKeyWithClassTag其实返回了一个shuffledRDD
这里写图片描述

我们可以看到在shuffledRDD最后还做了一个MapPartitionsRDD的操作，其实这一步主要做了一次数据整理，在操作之前将文件的key去掉了，这一步将文件的key加上写回到HDFS等操作
这里写图片描述

整个流程图是这样的：
这里写图片描述

阅读全文

0 0

百度怎样做优化推广

百度怎样做优化推广

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子换地方了宽带怎么办家里没移动网络怎么办手机移动数据卡怎么办 gprs已断开连接怎么办移动在家没信号怎么办家里联通信号差怎么办电信卡网络慢怎么办最近移动网络差怎么办移动手机网络差怎么办手机网络特别差怎么办 oppo手机网络慢怎么办移动卡信号不好怎么办 8p4g信号差怎么办微粒贷没有工作怎么办联通宽带拨号失败怎么办联通卡拨号失败怎么办买了网鹩哥怎么办中国联通4g怎么办流量 qq麦克风被禁用怎么办到了香港没信号怎么办米粉卡停机了怎么办联通香港没信号怎么办已连接有防火墙怎么办手机键不管用怎么办房间通话信号不好怎么办套餐语音用完了怎么办上海夜场ic卡怎么办 mac地址不可用怎么办 iptv恢复出厂了怎么办换号码移动宽带怎么办多个宽带账号怎么办光猫千兆口不闪怎么办手机电信网不好怎么办装宽带被骗了怎么办毕业了校园宽带怎么办移动网上不去怎么办农村井水硬度高怎么办鱼缸水质硬度高怎么办移动手机没信号怎么办电信网线坏了怎么办网卡不支持1000m怎么办