Spark简介

来源：互联网发布：高铁隧道网络覆盖编辑：程序博客网时间：2024/05/20 20:04

Spark是一个计算框架，是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储层，可以融入Hadoop生态系统，一笔不缺失MapReduce的不足。

Spark VS MapReduce

1. 中间输出结果

基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串行的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。

Spark将执行模型抽象为通用的有向无环图执行计划（DAG），这可以将多个Stage的任务串联或并行执行，无须将Stage中间的结果输出到HDFS中。【类似的引擎包括Dryad、Tez】

2. 数据格式和内存布局

由于MapReduce Schema on Read处理方式会引起较大的处理开销。Spark抽象出分布式内存存储结构弹性分布式数据集RDD，进行数据的存储。RDD能支持粗粒度写操作，但对于读取操作，RDD可以精确到每一条记录，这使得RDD可以用来作为分布式索引。

Spark的特性是能够控制数据在不同节点上的分区，用户可以自定义分区策略，如Hash分区等。【Shark和Spark SQL在Spark的基础上实现了列存储和列存储压缩】

3. 执行策略

MapReduce在数据Shuffle之前花费了大量的时间来排序，Spark则可减轻上述问题带来的开销。

因为Spark任务在Shuffle中不是所有情景都需要排序，所有支持基于Hash的分布式聚合，调度中采用更为通用的任务执行计划图（DAG），每一轮次的输出结果在内存缓存。

4. 任务调度的开销

传统的MapReduce系统，如Hadoop，是为了运行长达数小时的批量作业而设计的，在某些极端情况下，提交一个任务的延迟非常高。

Spark采用了事件驱动的类库AKKA来启动任务，通过线程池复用来避免进程或线程启动和切换开销。

Spark优势

1. 打造全栈多计算范式的高效数据流水线

Spark支持复杂查询，在简单map reduce操作之外，Spark还支持SQL查询，流式计算，机器学习和图算法。同时可以在一个工作流中无缝搭建这些计算范式。

2. 轻量级快速处理

Scala语言简洁性是的Spark核心代码少，并且Spark充分利用和集成Hadoop组件。Spark通过将中间结果缓存在内存减少磁盘I/O来达到性能的提升。

3. 易用，Spark支持多种语言

Spark支持Scala，Java，Python编写程序。自带了80多个三字，同时印象在Shell中进行交互式计算。

4. 与HDFS等存储层兼容

Spark可以独立运行，处理可以运行在Yar等集群管理系统之外，可以读取有的任何Hadoop数据。可以运行在任何Hadoop数据源上，如Hive、HBase、HDFS等

这使得用户可以轻易迁移已有的持久层数据

5. 社区活跃

社区活跃很重要

Spark并不完美，RDD模型适合的是粗粒度的全局数据并行计算。不适合细粒度的、需要异步更新的计算。

对一些计算需求，如果要针对特定工作负载达到最优性能，还需要使用一些其他的大数据系统。例如，

图计算领域的GraphLab在特定计算负载性能上由于GraphX
流式计算中的Storm在实时性要求很高的场合要比Spark Streaming更上一筹

0 0