一:Spark介绍

来源:互联网 发布:网页游戏自动挂机软件 编辑:程序博客网 时间:2024/06/05 02:04

spark
快速,通用的大规模数据处理技术。

【speed】
执行mr作业程序在内存比Hadoop快100倍。

spark有GAG执行引擎,支持离散数据流和内存计算。

【易于使用】
多种语言编写。 Java Scala Python

spark有着自己的集群计算技术,扩展了Hadoop mr模型用于高效计算,包括交互式查询和流计算,主要的特性就是基于内存的集群计算提升计算速度。

spark部署的三种模式
1. standalone,独立模式
在hdfs上分配空间,spark和mr同时运行,覆盖到所有job
2. spark yarn
在yarn上运行,不需要预先安装或要求root访问
有助于spark和Hadoop生态系统进行集成
3. spark in mapreduce

spark组件:
1. spark core (内核)
内核位于执行引擎之上,所有功能都在其上进行构建,提供内存计算和外部存储系统的数据集引用
2. spark SQL
增加对sql及hive的支持
3. spark streaming
用于流计算
4. MLLib
机器学习框架
5. GraphX
分布式图计算框架

0 0
原创粉丝点击