spark入门介绍
来源:互联网 发布:网络切换app 编辑:程序博客网 时间:2024/06/05 16:24
1 what is spark?
Apache基金会顶级项目
基于内存计算的大数据并行计算框架
中间数据存放到内存,迭代效率更高
2 Spark能带来什么?
(1) 打造全栈多计算范式的高效数据流水线
(2) 轻量级快速处理
(3) 易于使用spark支持多语言
(4) 与hdfs等存储层兼容
(5) 社区活跃度高
3 spark的执行流程逻辑图
Spark的执行流程在逻辑上是一个有向无环图,Action算子触发之后,将所有累计的算子形成一个DAG。spark根据RDD的依赖关系切分形成不同的stages,图中有三个stage。每个stage包含了一个可执行的函数流水线。数据从HDFS中获取,经过转换形成RDD A 和RDD C
RDD A经过一系列的算子(本例是flatMap和map)转换成RDD B,同理,RDD C 转换成了RDD E,之后RDD B 和 RDD E 经过join转换成了RDD F,再经过saveAsSequenceFile将结果写入到HDFS中。
4 spark的架构图
ClusterManager:在standalone模式中为Master,控制着整个集群,监控worker。在YARN中是资源管理器
Worker:从节点,负责控制计算节点,启动Executor或Driver。在YARN模式中卫NodeManager,负责计算节点的控制。
Driver:运行Application的main()函数并创建SparkContext
Executor:执行器,在worker node上执行任务的组件,用于启动线程池运行任务。每个Application拥有独立的一组Executors。
SparkContext:整个应用的上下文,控制应用的生命周期。
RDD:spark的基本计算单元,可以理解为分区存储在spark集群上的数组。
DAG Scheduler:根据作业构建基于stage的DAG,并提交stage给TaskScheduler。
TaskScheduler:将任务分发给Executor执行。
SparkEnv:线程级别的上下文,存储运行时的重要组件的引用。
Spark的执行流程:client提交应用,Master找到一个Worker启动Driver,Driver向Master或者资源管理器申请资源,资源获取之后,Driver将应用转化为DAG,再由DAGSheduler将RDD DAG转化为基于stage的有向无环图提交给TaskScheduler,TaskScheduler将任务分发给Executor执行。
- spark入门介绍
- Spark Streaming的入门介绍
- Spark MLlib系列(一):入门介绍
- Spark MLlib系列(一):入门介绍
- spark入门介绍(菜鸟必看)
- Spark MLlib系列(一):入门介绍
- spark入门介绍(菜鸟必看)
- Spark MLlib系列(一):入门介绍
- Spark MLlib系列(一):入门介绍
- Spark入门实战系列--9.Spark GraphX介绍及实例
- Spark入门实战系列--9.Spark GraphX介绍及实例
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming介绍
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
- 基于Spark的图计算框架 GraphX 入门介绍
- 【软考-数据库】范式整理
- grep BRE ERE
- DialogFragment
- Android ViewPager Fragment 选项卡切换
- Linux常用命令
- spark入门介绍
- spring 配置hibernate映射文件的两种方法
- sed -i 导致的文件重新创建
- 天声人語 20160301 衆院定数是正で汗を流せ
- android 白天模式/夜间模式切换
- question_001
- 日经春秋 20160301
- JAVA二学(一) 一个简单的ImageViewer
- Android系列---JSON数据解析