CCA Spark and Hadoop Developer (CCA175) 公开课
来源:互联网 发布:阳光网络伴我成长 编辑:程序博客网 时间:2024/09/21 08:55
【概况】
会议时间:2017-06-27 08:00:00至 2017-06-30 18:00:00结束
会议地点:上海 上海长阳谷 上海市杨浦区长阳路1687号
课时:28h/4天
【课程介绍】
Hadoop 及生态系统介绍
• 传统大规模系统的问题
• Hadoop !
• Hadoop 生态系统
Hadoop 体系结构及 HDFS
• 机群环境下的分布式处理
• 存储:HDFS 体系结构
• 存储:使用 HDFS
• 资源管理:YARN 体系结构
• 资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据
• Sqoop 简介
• 数据的基本导入导出
• 减少传输的数据量
• 改善 Sqoop 性能
• Sqoop 2
Impala 及 Hive 介绍
• 简介
• 为什么使用 Impala 及 Hive
• Hive 和传统数据库的比较
• Hive 应用场景
使用 Impala 及 Hive 管理数据及建模
• 数据存储
• 创建数据库及表
• 表数据导入
• HCatalog
• Impala 元数据缓存
数据格式
• 选择文件格式
• 支持不同文件格式的工具
• Avro 数据格式定义模式
• 在 Hive 及 Sqoop 里使用 Avro
• Avro 格式数据模式变更
• 压缩 数据分区
• 分区概述
• Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集
• 什么是 Apache Flume
• Flume 基本体系结构
• Flume 源
• Flume 槽
• Flume 通道
• Flume 配置
Spark 基础
• 什么是 Apache Spark
• 使用 Spark Shell
• RDDs( 可恢复的分布式数据集)
• Spark 里的函数式编程 Spark RDD
• RDD
• 键值对 RDD
• MapReduce
• 其他键值对 RDD 操作
编写和部署 Spark 应用
• Spark 应用对比 Spark Shell
• 创建 SparkContext
• 创建 Spark 应用(Scala 和 Java)
• 运行 Spark 应用
• Spark 应用 WebUI
• 配置 Spark 属性
• 运行日志
Spark 的并行处理
• 回顾:机群环境里的 Spark
• RDD 分区
• 基于文件 RDD 的分区
• HDFS 和本地化数据
• 执行并行操作
• 执行阶段及任务
Spark 缓存和持久化
• RDD 演变
• 缓存
• 分布式持久化
Spark 数据处理的常见模式
• 常见 Spark 应用案例
• 迭代式算法
• 图处理及分析
• 机器学习
• 例子:K-Means 预览:Spark SQL
• Spark SQL 和 SQL Context
• 创建 DataFrames
• 变更及查询 DataFrames
• 保存 DataFrames
• Spark SQL 对比 Impala
参会指南
参会费:¥7360
大会报名地址:https://www.huodongjia.com/event-951795901.html
会议时间:2017-06-27 08:00:00至 2017-06-30 18:00:00结束
会议地点:上海 上海长阳谷 上海市杨浦区长阳路1687号
课时:28h/4天
【课程介绍】
Hadoop 及生态系统介绍
• 传统大规模系统的问题
• Hadoop !
• Hadoop 生态系统
Hadoop 体系结构及 HDFS
• 机群环境下的分布式处理
• 存储:HDFS 体系结构
• 存储:使用 HDFS
• 资源管理:YARN 体系结构
• 资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据
• Sqoop 简介
• 数据的基本导入导出
• 减少传输的数据量
• 改善 Sqoop 性能
• Sqoop 2
Impala 及 Hive 介绍
• 简介
• 为什么使用 Impala 及 Hive
• Hive 和传统数据库的比较
• Hive 应用场景
使用 Impala 及 Hive 管理数据及建模
• 数据存储
• 创建数据库及表
• 表数据导入
• HCatalog
• Impala 元数据缓存
数据格式
• 选择文件格式
• 支持不同文件格式的工具
• Avro 数据格式定义模式
• 在 Hive 及 Sqoop 里使用 Avro
• Avro 格式数据模式变更
• 压缩 数据分区
• 分区概述
• Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集
• 什么是 Apache Flume
• Flume 基本体系结构
• Flume 源
• Flume 槽
• Flume 通道
• Flume 配置
Spark 基础
• 什么是 Apache Spark
• 使用 Spark Shell
• RDDs( 可恢复的分布式数据集)
• Spark 里的函数式编程 Spark RDD
• RDD
• 键值对 RDD
• MapReduce
• 其他键值对 RDD 操作
编写和部署 Spark 应用
• Spark 应用对比 Spark Shell
• 创建 SparkContext
• 创建 Spark 应用(Scala 和 Java)
• 运行 Spark 应用
• Spark 应用 WebUI
• 配置 Spark 属性
• 运行日志
Spark 的并行处理
• 回顾:机群环境里的 Spark
• RDD 分区
• 基于文件 RDD 的分区
• HDFS 和本地化数据
• 执行并行操作
• 执行阶段及任务
Spark 缓存和持久化
• RDD 演变
• 缓存
• 分布式持久化
Spark 数据处理的常见模式
• 常见 Spark 应用案例
• 迭代式算法
• 图处理及分析
• 机器学习
• 例子:K-Means 预览:Spark SQL
• Spark SQL 和 SQL Context
• 创建 DataFrames
• 变更及查询 DataFrames
• 保存 DataFrames
• Spark SQL 对比 Impala
参会指南
参会费:¥7360
大会报名地址:https://www.huodongjia.com/event-951795901.html
阅读全文
0 0
- CCA Spark and Hadoop Developer (CCA175) 公开课
- Cloudera Developer之Spark 及 Hadoop 开发员培训(CCA-175)
- CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】
- Developer Training for Spark and Hadoop
- spark公开课
- Hadoop and Hbase and Spark
- Comparing Hadoop, Spark, and Storm
- Hadoop and Spark and Hive Installation
- Hadoop:CCAH及CCA系列认证
- 5月11日相约上海交大,一起聆听HADOOP、SPARK源码级专家分享云计算免费公开课
- hadoop on yarn and spark on yarn
- Spark and Hadoop 思维导图
- Hadoop公开课:完全分布式脚本分析
- Cloudera Hadoop管理员(CCAH)&开发者(CCA)认证大纲
- Hadoop & Spark
- Spark-Hadoop
- Hadoop & Spark
- 网易公开课讲义2 Classification and logistic regression 笔记
- Linux学习笔记 --链路聚合
- FFmpeg编译和使用问题总结
- svn如何使用import目录作为工作拷贝+我的svn学习笔记
- Android进阶之路
- 魔法阵——数论
- CCA Spark and Hadoop Developer (CCA175) 公开课
- node的安装和配置
- jQuery库冲突解决办法
- [leetcode: Python]441. Arranging Coins
- 我与python约个会:15编程进阶~函数的返回值
- Educational Codeforces Round 21B. Average Sleep Time
- java.lang.OutOfMemoryError: Java heap space异常处理
- 分布式任务调度平台XXL-JOB
- 用javascript插入样式