CCA Spark and Hadoop Developer (CCA175) 公开课

来源：互联网发布：阳光网络伴我成长编辑：程序博客网时间：2024/09/21 08:55

【概况】

会议时间：2017-06-27 08:00:00至 2017-06-30 18:00:00结束

会议地点：上海上海长阳谷上海市杨浦区长阳路1687号

课时：28h/4天

【课程介绍】

Hadoop 及生态系统介绍

• 传统大规模系统的问题

• Hadoop ！

• Hadoop 生态系统

Hadoop 体系结构及 HDFS

• 机群环境下的分布式处理

• 存储：HDFS 体系结构

• 存储：使用 HDFS

• 资源管理：YARN 体系结构

• 资源管理：使用 YARN

使用 Apache Sqoop 导入关系数据

• Sqoop 简介

• 数据的基本导入导出

• 减少传输的数据量

• 改善 Sqoop 性能

• Sqoop 2

Impala 及 Hive 介绍

• 简介

• 为什么使用 Impala 及 Hive

• Hive 和传统数据库的比较

• Hive 应用场景

使用 Impala 及 Hive 管理数据及建模

• 数据存储

• 创建数据库及表

• 表数据导入

• HCatalog

• Impala 元数据缓存

数据格式

• 选择文件格式

• 支持不同文件格式的工具

• Avro 数据格式定义模式

• 在 Hive 及 Sqoop 里使用 Avro

• Avro 格式数据模式变更

• 压缩数据分区

• 分区概述

• Impala 及 Hive 里的数据分区

Apache Flume 实时数据采集

• 什么是 Apache Flume

• Flume 基本体系结构

• Flume 源

• Flume 槽

• Flume 通道

• Flume 配置

Spark 基础

• 什么是 Apache Spark

• 使用 Spark Shell

• RDDs( 可恢复的分布式数据集）

• Spark 里的函数式编程 Spark RDD

• RDD

• 键值对 RDD

• MapReduce

• 其他键值对 RDD 操作

编写和部署 Spark 应用

• Spark 应用对比 Spark Shell

• 创建 SparkContext

• 创建 Spark 应用（Scala 和 Java）

• 运行 Spark 应用

• Spark 应用 WebUI

• 配置 Spark 属性

• 运行日志

Spark 的并行处理

• 回顾：机群环境里的 Spark

• RDD 分区

• 基于文件 RDD 的分区

• HDFS 和本地化数据

• 执行并行操作

• 执行阶段及任务

Spark 缓存和持久化

• RDD 演变

• 缓存

• 分布式持久化

Spark 数据处理的常见模式

• 常见 Spark 应用案例

• 迭代式算法

• 图处理及分析

• 机器学习

• 例子：K－Means 预览：Spark SQL

• Spark SQL 和 SQL Context

• 创建 DataFrames

• 变更及查询 DataFrames

• 保存 DataFrames

• Spark SQL 对比 Impala

参会指南

参会费：¥7360

大会报名地址：https://www.huodongjia.com/event-951795901.html

阅读全文

0 0