程序博客网 > 开淘宝网店没有销量

spark_3：spark的基础

来源：互联网发布：开淘宝网店没有销量编辑：程序博客网时间：2024/05/18 14:25

RDD

可被切分
由一个函数计算每一个分片
对其他的RDD依赖
可选：key-value的rdd是根据hash来分区的，类似于partitioner接口

RDD计算模式

Iterative Algorithms
Relational Queries
MapRdecue
Streaming

RDD的四个核心方法

getPartitions：返回一系列partitions集合
getDependencies：表达RDD之间的依赖关系
compute：针对每个partition计算
getPreferredLocation：寻找partions的位置
可选的分区策略，默认分区是HashPartitioner

spark计算代码

生成RDD

val rdd=sc.parallelize(list(1,2,3,4,5))

filter

val filterRDD=mappedRDD.filter(_ > 4)filterRDD.collect

cache
*count

val vordcount=rdd.flatMap(_.split(' ')).map(_,1).reduceByKey(_+_)wordcount.saveAsTextFile('/data/test')

sort

val wc=rdd.flatmap(_.split('')).map(_,1).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1))

union
groupByKey

RDD计算模型

http://blog.csdn.net/dc_726/article/details/41381791

这里写图片描述

创建RDD对象，
DAG调度器创建执行计划，
Task调度器分配任务并调度Worker开始运行。
Driver
1. RDD依赖分析，生成RDD
2. 生成DAG，将job划分为不同的stage(宽窄依赖)
3. stage生成task，发送到Executor

0 0

开淘宝网店没有销量

开淘宝网店没有销量

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子潜滋暗长滋的拼音滋组词语甲鱼滋肾汤充电器滋滋响有危险吗耳机有杂音滋滋麻仁滋脾丸滋词语滋骨生高贴乐滋滋音响有滋滋声怎么解决滋的组词滋阴降火瓦滋猎人七零年代美滋滋月下蝶影美滋滋滋粑滋粑辣椒滋粑怎么读滋粑的做法滋粑怎么吃螺丝滑丝螺丝滑丝怎么卸下来小窍门滑丝螺丝孔滑丝修复办法丝滑的绒毛丸美巧克力丝滑系列价格螺丝滑丝修复办法丸美丝滑巧克力系列丸美巧克力丝滑日霜丝滑打底裤丸美巧克力丝滑眼霜怎么样德芙巧克力丝滑雀巢丝滑拿铁咖啡268ml 雀巢丝滑拿铁丝滑健美裤潘婷丝质顺滑洗发露400ml 丝滑花样滑冰滑冰英文滑冰的英文