spark入门笔记
来源:互联网 发布:亚马逊好还是淘宝好 编辑:程序博客网 时间:2024/06/06 11:43
1. 特点
- 快速的:基于内存
- 通用的:批处理,迭代
- 高度开放:
2. 生态介绍
1.内存存储,紧密集成
2.组件
- Core
- SQL
- Streaming
- Mlib:1.一个包含机器学习功能的包,包含分类聚类回归,还包含模型评估和数据导入。 *2.都支持集群上的横向拓展 3.应用场景:机器学习
- Graphx:1.处理图的库进行图的并行计算,和streaming,SQL一样,也继承了RDD API。2. 应用:图计算
- Cluster Manager:集群管理
3. Spark与hadoop的比较
- Hadoop:离线处理,对时效性要求不高
- Spark:时效性要求高,机器学习领域
4. Doug Cutting的观点:
1.这是生态系统,每个组件都有其作用,各擅其职即可。
2.Spark不具有HDFS的存储能力,要借助HDFS等持久化数据。
3.大数据将会孕育出更多的新技术
阅读全文
2 0
- Spark入门笔记
- Spark入门笔记
- spark入门笔记
- Apache Spark 之 入门笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- spark学习笔记总结-spark入门资料精化
- spark入门笔记(二)spark的stanalone模式
- Spark机器学习笔记1--Spark Python编程入门
- Spark学习笔记#1-快速入门
- Spark入门阅读文档笔记2
- matlab GUI 打包成exe可执行文件的方法(2016b)
- 每天一个linux命令(16):which命令
- 常用缩写及其含义
- CCPC FINAL 2017(Inkopolis-基环外向树)
- 生活艰难
- spark入门笔记
- 每天一个linux命令(17):whereis 命令
- 每天一个linux命令(18):locate 命令
- PHP面试题汇总
- 表单验证插件Validate.js的使用
- linux 下调节亮度
- MessageFormat用法
- JDK1.7—JDK1.8转换详细图解
- 关于MaxCompute的基本了解