征服Spark as a Service
来源:互联网 发布:中国 未来 国运 知乎 编辑:程序博客网 时间:2024/06/07 02:37
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、SparkStreaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作,这是当今任何大数据平台都无可匹敌的优势。
在实际的生产环境中世界上已经出现很多一千个以上节点的Spark集群,以eBay为例,eBay的Spark集群节点已经超过2000个,Yahoo!等公司也在大规模的使用Spark,国内的淘宝、腾讯、百度、网易、京东、华为、大众点评、优酷土豆等也在生产环境下深度使用Spark。2014 Spark Summit上的信息,Spark已经获得世界20家顶级公司的支持,这些公司中包括Intel、IBM等,同时更重要的是包括了最大的四个Hadoop发行商都提供了对非常强有力的支持Spark的支持。
课程介绍
课程深入浅出,以Spark内核和JobServer为核心,课程包含:
Spark的架构设计;
Spark编程模型;
Spark内核框架源码剖析;
Spark SQL;
Spark实时流处理;
JobServer使用;
JobServer框架解析;
JobServer源码解析;
培训对象
1, 云计算大数据从业者;
2, Hadoop使用者;
3, 系统架构师、系统分析师、高级程序员、资深开发人员;
4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;
5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;
6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;
7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;
学员基础
对大数据感兴趣
王家林老师
中国目前唯一的移动互联网和云计算大数据集大成者;
云计算大数据Spark亚太研究院院长和首席专家;
Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。
Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;
Android架构师、高级工程师、咨询顾问、培训专家;
通晓Android、HTML5、Hadoop,迷恋英语播音和健美;
致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;
国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。
HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;
超过10本的IT畅销书作者;
培训内容
第一天
第1堂课:Spark的架构设计
1.1 Spark生态系统剖析
1.2 Spark的架构设计剖析
1.3 RDD计算流程解析
1.4 Spark的出色容错机制
第2堂课:Spark编程模型
2.1 RDD
2.2 transformation
2.3 action
2.4 lineage
2.5宽依赖与窄依赖
第3堂课:深入Spark内核
3.1 Spark集群
3.2 任务调度
3.3 DAGScheduler
3.4 TaskScheduler
3.5 Task内部揭秘
第4堂课:深入实战RDD
4.1 DAG
4.2 Spark Transformations
4.3 Spark Actions
4.4 RDD的优化问题
第5堂课:Spark SQL
5.1 Parquet支持
5.2 DSL
5.3 SQL on RDD
第二天
第6堂课:Spark实时流处理
6.1 DStream
6.2 transformation
6.3 checkpoint
6.4 性能优化
第7堂课:JobServer
7.1 JobServer的架构设计
7.2 JobServer提供的接口
7.3 JobServer最佳实践
第8堂课:JobServer框架解析
8.1 JobServer源码解析
8.2 RddManagerActor源码解析
8.3 JobCache源码解析
8.4 JobResultActor源码解析
8.5 LocalContextSupervisorActor
第9堂课:JobServer框架解析
9.1 LRUCache源码解析
9.2 SparkContextFactory源码解析
9.3 ContextURLClassLoader源码解析
第10堂课:JobServer框架解析
10.1 JobDAO源码解析
10.2 JobFileDAO源码解析
10.3 JobSqlDAO源码解析
10.4 JobSqlDAOJdbcConfig源码解析
- 征服Spark as a Service
- Apache Spark as a Service
- Spark as a Service之JobServer初测
- Spark as a Service之JobServer部署
- Spark as a Service之JobServer初测
- Spark as a Service之JobServer初测
- Spark(十二) -- Spark On Yarn & Spark as a Service & Spark On Tachyon
- function as a service
- Spark视频第12期Spark亚太研究院决胜大数据时代公益大讲坛:Spark as a Service
- SaaS: Software as a Service
- keylogger, runs as a Service
- tap as a service 分析
- 09 Container as a Service
- Spark:windows平台上配置cygwin错误总结——ERROR: Installing sshd as a service failed!
- 一天征服Spark!
- Starting Tomcat as a Service on Linux
- 如何用好NoSQL?Database-as-a-Service
- Starting Tomcat as a Service on Linux
- 在云计算资源池上自动部署业务应用的大数据平台组件开发实战
- Java 将图片转二进制再将二进制转成图片
- 主线程和子线程总结
- aspx页面用一个遮罩层显示正在加载,加载完后隐藏该div
- ffmpeg参数中文详细解释
- 征服Spark as a Service
- 树
- android平台上AES,DES加解密及问题
- Ubuntu安装ssh时出现软件包 openssh-server 还没有可供安装的候选者错误
- MySQL Innodb事务编程问题和处理
- sae上使用jieba
- 睡了好久哇
- mysql命令行修改字符编码
- Binary Tree Level Order Traversal II