Spark开发-WordCount流程详细讲解
来源:互联网 发布:百度怎样做优化推广 编辑:程序博客网 时间:2024/05/16 19:48
核心
wordcount流程详细讲解
有一份这样的数据
hello xlucas hello hadoop
hello hadoop
hello spark
hello kafka
最后的结果是这样的
hello:5
hadoop:2
spark:1
xlucas:1
kafka:1
那么这里spark主要做了哪些事情?
我们先从textFile可以看到这里调用了HadoopFile
从HadoopFile这里我们可以看到,创建了一个HadoopRDD的实例
在去掉Key的时候会做Map操作,这个map会返回 一个MapPartitionsRDD
这里的flatMap也会返回一个MapPartitionsRDD
在做reduceByKey的时候,其实调用了combineByKeyWithClassTag
我们可以看到combineByKeyWithClassTag其实返回了一个shuffledRDD
我们可以看到在shuffledRDD最后还做了一个MapPartitionsRDD的操作,其实这一步主要做了一次数据整理,在操作之前将文件的key去掉了,这一步将文件的key加上写回到HDFS等操作
整个流程图是这样的:
阅读全文
0 0
- Spark开发-WordCount流程详细讲解
- Spark开发-WordCount详细讲解
- Spark开发-WordCount详细讲解Java版本
- node 详细讲解,node开发流程
- Spark第一个程序开发 wordcount
- 使用eclipse开发spark程序 wordcount 事例
- 4.Spark Streaming:实时wordcount程序开发
- spark-wordcount
- Spark-wordcount
- wordcount spark...
- wordCount spark
- spark wordcount
- Spark WordCount
- spark wordcount
- Spark WordCount
- spark wordcount
- spark wordcount
- Spark学习(二):使用Spark开发wordcount程序
- (五)转载:通用定时器PWM输出
- 关于0,null,false等之间的比较
- 递归第一周反思
- 拦截导弹(贪心+动态)
- docker基本概念和安装
- Spark开发-WordCount流程详细讲解
- (四)通用定时器的定时功能(使用中断)
- postgreSQL保留小数
- 关于Java的一道题:"求二进制数中1的个数"的解法整理
- (二)STM32中中断优先级理解
- lsof 命令 ---待完善
- 内存数据库Redis安装笔记【Linux版】
- docker镜像
- oracle与mysql存储过程insert into