Spark - 大数据Big Data处理框架
来源:互联网 发布:qq飞车杀人蜂数据 编辑:程序博客网 时间:2024/04/20 02:51
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。
Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。
Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HBASE 顺序文件等。
传统Hadoop如下图 性能慢原因有:磁盘IO 复制和序列化等等,涉及图中的HDFS
而在Spark中,使用内存替代了使用HDFS存储中间结果:
Spark架构图
Spark的编程模型
弹性的分布数据集(RDD) :分布式对象集合能够跨集群在内存中保存。多个并行操作,失败自动恢复。
使用内存集群计算, 内存访问要比磁盘快得多。有Scala Java Python API,能够从Scala和Python访问。
下面是一个简单的对日志log计数的代码:
/*** SimpleJob.scala ***/
import spark.SparkContext
import SparkContext._
object SimpleJob {
def main(args: Array[String]) {
val logFile = "/var/log/syslog" // Should be some file on your system
val sc = new SparkContext("local", "Simple Job", "$YOUR_SPARK_HOME",
List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}
运行原理图:
当进行filter操作是,是一种transformed RDD,RDD跟踪这种转换,当有数据丢失失败时,重新计算 得到这个数据。
Spark支持物流logistic表达式,如下图:
物流表达式相比Hadoop的遍历性能:
支持以下数据分析操作:
Spark流处理
以推流方式处理数据:
Shark
Shark是基于Spark上的“Hive”,看看基于hadoop的Hive:
而Shark的结构图:
Hive是记录每行记录一个对象,而shark是每列记录:
执行SQL时间对比:
转自:http://www.jdon.com/bigdata/spark.html
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- 大数据(big data)
- 大数据Big Data
- Big data大数据
- 《大数据时代(BIG DATA)》
- 大数据数据分析的大规模并行处理模型 Big Data Massive Parallel Processing(MPP) Model
- BIG DATA 大数据时代来临
- 大数据(big data)究竟是什么?
- 大数据big data相关面试
- Storm - 大数据Big Data实时处理架构
- Storm - 大数据Big Data实时处理架构
- Storm - 大数据Big Data实时处理架构
- Awesome Big Data,了不起的大数据
- 什么是大数据(Big Data)?
- 大数据(Big Data)扫盲
- 大数据Big-data相关技术
- 黑马程序员---Java基础总结---数据结构、运算符
- 深入分析Windows和Linux动态库应用异同
- 如何处理logout后,后退按钮(返回键)依旧显示缓存的问题
- spring学习笔记3——注入依赖对象
- 悬浮窗的实现
- Spark - 大数据Big Data处理框架
- LeetCode Set Matrix Zeroes
- Java程序打包成jar包
- Android常用工具类
- Android定时触发
- 第五周上机时间项目——三角形类的构造函数(2)
- struts2.0拦截器(实现未登录的用户不能访问系统的页面)(转)
- ubuntu查看端口
- web性能探究