spark1.x-sql-架构原理

来源：互联网发布：js跨域方法编辑：程序博客网时间：2024/05/22 07:49

整体架构
spark-sql整体架构

详解

这里写图片描述

源码结构

catalyst
这里写图片描述

sql
这里写图片描述

hive
这里写图片描述

hive-thriftserver
这里写图片描述

原理

SQLText
–>Parsing
–>Unresolved Logical Plan
–>Binding & Analyzing
–>logical plan
–>optimizing
–>optimized logical plan
–>query planning
–>physical plan

可能生成多种物理计划
通过方法评估哪种方案最快节省资源最少

一个树的结构比如：
PROJECT　name
||
select
students
||
WHERE age<=18

SqlParser–>DataFrame(unresolved LogicalPlan tree的语法树)
–>RDD
–>transformation action

–>SQLContext executor.sql()

–>QueryExecution–>Analyzer.apply()

–>resolved Logicalplan 与数据源绑定
不知道表在哪里？
临时表在哪里

Resolved LogicalPlan 与 SQL中的数据源

(studentDF.registerTemplate(‘students’)) 进行绑定

知道从哪个数据源中查询

query excution

anlayzer的apply()方法执行结束后得到Resolved LogicalPlan

Analysis && binding
通过cacheManager 执行缓存的操作
如果之前已经缓存过执行计划再次执行使用缓存中的数据

optimizer
batches是非常非常重要的
封装了每一个Spark sql版本中可以对逻辑执行计划执行的优化策略
optimizer重点是理解它的各种优化策略

调用Optimizer的apply() 方法

针对Resolved LogicalPal调用Optimizer 进行优化

获得优化后的逻辑执行计划

优化策略建议的方式编写SQL语句

Combiner 其实就是合并limit语句
比如你的SQL语句中有多个limit子句取一个并集就可以
尽量避免值出现null 出现否则数据倾斜

直接计算获得常量尽量给出
UnionPuushDown 将Union下推 filter pushdown 将union where 下推到子查询中尽量早的执行union操作和where 操作
避免在外层查询中针对大量的数据两张大表执行where 操作

合并fitlter 就是合并where子句比如子查询中有针对某个字段的where 子句
外层查询中也有针对同样一个字段的where子句
那么此时可以合并where子句只保留一个即可取并集即可
我们自己写SQL的时候也要注意到这个where使用
如果针对一个字段写一次就好

列裁剪要查询的列

生成Optimized LogcalPlan

SparkPlanner
逻辑执行计划具体化物化

PrepareforExecutor()

SparkPlanner生成一个可以执行的sparkplan 物理执行计划
已经绑定到了物理的数据源

知道对各个表的join
如果进行jion 包括jion的时候默认spark内部会对小表进行广播

生成 SparkPlan (Physical Plan).executor()

阅读全文

0 0