Spark概述

来源：互联网发布：淘宝宝贝设置价格区间编辑：程序博客网时间：2024/06/01 03:58

概述:

ApacheSpark™ is a fast and general engine for large-scale data processing.

如官网所说，Spark是快速处理大规模数据的引擎，对应的Hadoop的MR引擎

我们听到的Spark比Hadoop快100倍，其实是比MR快，MR将数据的中间结果写入磁盘，而Spark则是直接写入内存，在一定程度上，加速了程序的处理。

Spark特点：

快速：

1.DAG: Spark建立各个RDD之间的依赖关系，组成有向无环图（DAG），提升了任务的执行效率

2.将中间结果写入内存而非磁盘，减少了大量IO。

通用：

Spark生态圈的生态圈包含了SparkSQL、Spark Streaming实时流处理、MLlib机器学习、GraphX图处理等组件。

Spark可运行在Yarn、Mentos资源调度系统之上，以HDFS分布式文件系统、Techyon分布式内存文件系统为数据源

MR与Spark的区别

MR：可以处理大规模数据，适合日志的分析挖掘，较少的IO
Spark：适合用于数据挖掘、机器学习等多伦迭代式计算任务

容错性：

Hadoop的容错：HDFS副本元数据快照等
Mapreduce的容错：
TaskTracker宕机，JobTracker会将上一个失败的任务放到另外一个节点上重新运行，map任务和reduce任务失败对应重做
Spark lineage是记录RDD之间的血统关系的，即每一个RDD是怎么演变而来，又往哪演变。当节点宕机或者RDD中数据部分丢失的时候，系统会通过lineage获取上一个RDD，从而重新开始计算和恢复丢失的数据

0 0