Spark - 大数据Big Data处理框架
来源:互联网 发布:设计餐厅菜单软件 编辑:程序博客网 时间:2024/04/25 03:42
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。
Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。
Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HBASE 顺序文件等。
传统Hadoop如下图 性能慢原因有:磁盘IO 复制和序列化等等,涉及图中的HDFS
而在Spark中,使用内存替代了使用HDFS存储中间结果:
Spark架构图
Spark的编程模型
弹性的分布数据集(RDD) :分布式对象集合能够跨集群在内存中保存。多个并行操作,失败自动恢复。
使用内存集群计算, 内存访问要比磁盘快得多。有Scala Java Python API,能够从Scala和Python访问。
下面是一个简单的对日志log计数的代码:
/*** SimpleJob.scala ***/
import spark.SparkContext
import SparkContext._
object SimpleJob {
def main(args: Array[String]) {
val logFile = "/var/log/syslog" // Should be some file on your system
val sc = new SparkContext("local", "Simple Job", "$YOUR_SPARK_HOME",
List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}
运行原理图:
当进行filter操作是,是一种transformed RDD,RDD跟踪这种转换,当有数据丢失失败时,重新计算 得到这个数据。
Spark支持物流logistic表达式,如下图:
物流表达式相比Hadoop的遍历性能:
支持以下数据分析操作:
Spark流处理
以推流方式处理数据:
Shark
Shark是基于Spark上的“Hive”,看看基于hadoop的Hive:
而Shark的结构图:
Hive是记录每行记录一个对象,而shark是每列记录:
执行SQL时间对比:
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- 大数据(big data)
- 大数据Big Data
- Big data大数据
- 《大数据时代(BIG DATA)》
- 大数据数据分析的大规模并行处理模型 Big Data Massive Parallel Processing(MPP) Model
- BIG DATA 大数据时代来临
- 大数据(big data)究竟是什么?
- 大数据big data相关面试
- Storm - 大数据Big Data实时处理架构
- Storm - 大数据Big Data实时处理架构
- Storm - 大数据Big Data实时处理架构
- Awesome Big Data,了不起的大数据
- 什么是大数据(Big Data)?
- 大数据(Big Data)扫盲
- 大数据Big-data相关技术
- sessionstage和localstage的应用实例
- Unity3D-Mecanim动画系统-MatchTarget()目标匹配
- Collection的所有的方法演示
- ICCV 2011 一篇文章:Ensemble of Exemplar-SVMs
- Jquery+Ajax+Json+ashx生成表
- Spark - 大数据Big Data处理框架
- lamda模糊查询
- 调用console输出信息
- Oracle查看锁表和解除锁表
- genymotion注册不了解决方法
- 使用selector设置按钮不同状态的样式(Android)
- iOS 修改FMdatabase,不使用FMDatabaseQueue支持多线程数据库操作
- 其他线程handler和ui组件与toast深入探讨
- swift 快速奔跑的兔几 本节的内容是:SpriteKit第4讲 字体和动画