Spark知识要点(1)
来源:互联网 发布:网络交往具有什么特点 编辑:程序博客网 时间:2024/06/10 15:15
Spark简介
Spark是一个快速、通用的大规模数据并行计算平台。2009年诞生于伯克利大学AMPLab。由scala语言实现。
特点:
*性能高,内存运行时速度是HadoopMapReduce的100倍,磁盘时是其10倍;
*易用,可以用Java、Scala和Python开发。
*通用,支持交互式查询、实时流处理和批处理计算。
*兼容性好,可以运行于Hadoop、Mesos和云上。
核心技术
*统一的RDD抽象和操作
*基于内存的迭代式计算
*DAG
*容错机制
Spark生态圈
*集群管理系统:Standalone、Mesos和YARN
*存储系统:HDFS等分布式存储系统
*内存文件系统:Tachyon
*Spark: 实现任务调度、内存管理、故障恢复和与存储系统的交互等功能。
*Shark/Spark SQL: 提供SQL接口。
*Spark Streaming:实时流处理框架。
*GraphX:图计算框架
*Mlib:机器学习框架
Spark安装部署
Spark可以有以下几种部署方式:Local、Standalone、YARN、Mesos和Amozon EC2。
Local模式
最简单的情况
1. 下载Spark软件包
http://spark.apache.org/downloads.html
2. 解压软件包
#tar zxvf spark-xxx.tar.gz
#ln –s spark-xxx spark
3. 验证
#cd spark
#bin/spark-shell
Standalone分布式集群
1. 安装虚拟机及操作系统,分别命名为master、slave1和slave2,并配置实现虚拟机间的互通;
2. 安装Java、Scala等基础软件,并;
3. 配置节点间的无密码互访;
4. 下载安装Hadoop,并配置Hadoop为集群模式;
5. 下载安装Spark,并配置Spark为Standalone模式;
- Spark知识要点(1)
- Spark要点
- Spark要点
- 知识要点
- 1-1 RFID理论基础知识要点
- java学习 知识要点记录1
- 前端JS知识要点总结(1)
- web前端知识要点总结1
- Windows 编程知识要点总结1 - Windows位图知识
- Spark安装要点
- C++知识要点
- 嵌入式软件工程师知识要点
- COM知识要点
- 数据结构之知识要点
- 知识要点备份
- XML知识要点
- iOS开发知识要点
- iOS开发知识要点
- 云计算====成本
- C. DNA Alignment 数学公式推导 Codeforces Round #295 (Div. 2)
- java中的常用类及常用方法
- 2015计划
- 1.6 与OpenGL相关的函数库
- Spark知识要点(1)
- 《编码的秘密》读后感
- arm-linux手工安装metasploit笔记
- 差分约束系统
- Linux内存管理(3) - slab分配器和kmalloc
- Android笔记——AutoCompleteTextView
- UVA 488 10038 10107 10370
- [动态规划] Sum游戏 ( Game of Sum, Uva 10891 )
- py 使用MyThread继承重写线程类实现多线程编程