Spark概述

来源:互联网 发布:现场工程师 linux维护 编辑:程序博客网 时间:2024/05/16 01:10

Spark概述

Spark特点

  • 内存计算
  • 中间处理数据也放在内存中,减少磁盘I/O
  • 支持复杂查询:包括filter、SQL查询、流式查询等
  • 支持实时流处理(Hadoop只能离线处理)
  • 迭代计算

Spark应用框架

Spark Streaming

Tachyon

过去,Spark的计算功能和内存管理都是在JVM中,导致JVM负载较高,且JVM崩溃后数据会丢失。
Tachyon的目的是分离Spark的计算功能和内存管理功能,使内存管理脱离JVM,专门设计Tachyon在JVM外管理内存数据。这解决了Spark在数据共享、缓存数据丢失情况下的效率较低的问题,还减少了JVM因数据量过多而导致的大量GC操作,提高了Spark效率。

0 0
原创粉丝点击