Spark的原理
来源:互联网 发布:光怪兽普利茨墨淘宝 编辑:程序博客网 时间:2024/05/29 19:37
Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。
Spark有如下优势:
- Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求
- 官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
Spark的核心思路就是将数据集缓存在内存中加快读取速度,同时用lineage关联的RDD以较小的性能代价保证数据的鲁棒性。
阅读全文
0 0
- spark RDD的原理
- Spark的原理
- Spark的架构原理
- 【Spark系列4】Spark的shuffle原理
- Spark 的运行流程原理
- Spark-Streaming checkpoint的原理
- spark原理
- mapreduce和spark的原理及区别
- Spark-Streaming KafkaDirectDStream checkpoint的原理
- spark worker的原理和源码解析
- Spark的Task执行原理流程
- 基于Spark之上的YDB技术原理
- 基于Spark之上的YDB技术原理
- Spark on Yarn的运行原理
- spark的基本工作原理和RDD
- spark 中RDD的持久化原理
- Spark的RDD原理以及2.0特性的介绍
- Spark的RDD原理以及2.0特性的介绍
- 算法题练习系列之(九):部分A+B
- JSTL表达式的使用----标准标签库
- SSnoCD (之一)
- NOIP2015子串
- 通向架构师的道路(第十九天)使用maven构建Spring工程
- Spark的原理
- 关于内存高低地址 以及 数据的存取
- java集合框架03
- Python3学习笔记4-函数,全局变量&局部变量,内置函数
- 通向架构师的道路(第二十天)spring(二)maven结合spring与ibatis
- java基础之面向对象的介绍
- Linux下的多进程编程
- Java构造器和方法的区别
- HDFS和MapReduce