spark_3:spark的基础
来源:互联网 发布:开淘宝网店没有销量 编辑:程序博客网 时间:2024/05/18 14:25
RDD
- 可被切分
- 由一个函数计算每一个分片
- 对其他的RDD依赖
- 可选:key-value的rdd是根据hash来分区的,类似于partitioner接口
RDD计算模式
- Iterative Algorithms
- Relational Queries
- MapRdecue
- Streaming
RDD的四个核心方法
- getPartitions: 返回一系列partitions集合
- getDependencies:表达RDD之间的依赖关系
- compute:针对每个partition计算
- getPreferredLocation:寻找partions的位置
- 可选的分区策略,默认分区是HashPartitioner
spark计算代码
- 生成RDD
val rdd=sc.parallelize(list(1,2,3,4,5))
- filter
val filterRDD=mappedRDD.filter(_ > 4)filterRDD.collect
- cache
*count
val vordcount=rdd.flatMap(_.split(' ')).map(_,1).reduceByKey(_+_)wordcount.saveAsTextFile('/data/test')
- sort
val wc=rdd.flatmap(_.split('')).map(_,1).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1))
- union
- groupByKey
RDD计算模型
http://blog.csdn.net/dc_726/article/details/41381791
- 创建RDD对象,
- DAG调度器创建执行计划,
Task调度器分配任务并调度Worker开始运行。
Driver
- RDD依赖分析,生成RDD
- 生成DAG,将job划分为不同的stage(宽窄依赖)
- stage生成task,发送到Executor
0 0
- spark_3:spark的基础
- spark_2:spark的基础
- [Spark--基础]--解密Spark的分区
- Spark基础的简单概述
- spark基础(二)-----------scala在spark shell里的应用
- spark基础之spark streaming的checkpoint机制
- Spark基础
- spark基础
- spark基础
- spark 基础
- Spark基础
- spark基础
- Spark基础
- Spark基础
- Spark基础
- 基于Spark之上的基础环境设置
- 基于Spark之上的基础环境设置
- Spark基础-Scala集合的操作
- Jmeter调试工具---Debug Sampler
- 代码大全第15章,使用条件语句
- eclipse常用快捷键
- 欢迎使用CSDN-markdown编辑器
- 解决fatal error C1859: “Debug\thread5.pch”意外的预编译头错误的方法
- spark_3:spark的基础
- Groovy的展开操作符(Spread Operator)*.和*
- Jmeter调试工具---HTTP Mirror Server
- 你是在谈恋爱还是在发神经
- C# Random 生成不重复随机数
- LeetCode 268. Missing Number
- PHP Sessions
- Jmeter之JDBC Request使用方法(oracle)
- HDU-1097-A hard puzzle( 快速幂取模 )