Spark知识要点(1)

来源:互联网 发布:网络交往具有什么特点 编辑:程序博客网 时间:2024/06/10 15:15

Spark简介

Spark是一个快速、通用的大规模数据并行计算平台。2009年诞生于伯克利大学AMPLab。由scala语言实现。

特点:

*性能高,内存运行时速度是HadoopMapReduce的100倍,磁盘时是其10倍;

*易用,可以用Java、Scala和Python开发。

*通用,支持交互式查询、实时流处理和批处理计算。

*兼容性好,可以运行于Hadoop、Mesos和云上。

 

核心技术

*统一的RDD抽象和操作

*基于内存的迭代式计算

*DAG

*容错机制

Spark生态圈


*集群管理系统:Standalone、Mesos和YARN

*存储系统:HDFS等分布式存储系统

*内存文件系统:Tachyon

*Spark: 实现任务调度、内存管理、故障恢复和与存储系统的交互等功能。

*Shark/Spark SQL: 提供SQL接口。

*Spark Streaming:实时流处理框架。

*GraphX:图计算框架

*Mlib:机器学习框架

Spark安装部署

Spark可以有以下几种部署方式:Local、Standalone、YARN、Mesos和Amozon EC2。

Local模式

最简单的情况

1.      下载Spark软件包

http://spark.apache.org/downloads.html

2.      解压软件包

#tar zxvf spark-xxx.tar.gz

#ln –s spark-xxx spark

3.      验证

#cd spark

#bin/spark-shell

Standalone分布式集群

1.      安装虚拟机及操作系统,分别命名为master、slave1和slave2,并配置实现虚拟机间的互通;

2.      安装Java、Scala等基础软件,并;

3.      配置节点间的无密码互访;

4.      下载安装Hadoop,并配置Hadoop为集群模式;

5.      下载安装Spark,并配置Spark为Standalone模式;

0 0
原创粉丝点击