快来看！Hadoop+Spark大数据分析最佳实践研修班(第5期)深圳开班啦！

来源：互联网发布：产品标贴制作软件编辑：程序博客网时间：2024/04/30 13:58

一、什么是Hadoop？

Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序成为"作业job"，而从一个作业换分出的、运行于个计算节点的工作单元成为"任务task"。此外，Hadoop提供的分布式文件系统HDFS主要负责各个节点上的数据的存储，并实现了高吞吐率的数据读写。

二、Hadoop相关技术

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。

充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

Hadoop Common
在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common
HDFS
Hadoop分佈式文件系統(Distributed File System)－HDFS (Hadoop Distributed File System)
MapReduce
并行计算框架，0.20前使用 org.apache.hadoop.mapred 旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API
HBase
类似Google BigTable的分布式NoSQL列数据库。（HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1]）
Hive
数据仓库工具，由Facebook贡献
Zookeeper
分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献
Avro
新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制

三、Hadoop作用

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

四、什么是Hadoop工程师？

hadoop工程师主要是偏开发层面，指的是围绕大数据系平台系统级的研发人员，熟练Hadoop大数据平台的核心框架，能够使用Hadoop提供的通用算法，熟练掌握Hadoop整个生态系统的组件如：Yarn，HBase、Hive、Pig等重要组件，能够实现对平台监控、辅助运维系统的开发。

随着云计算、大数据迅速发展，亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多，直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上，工作1年可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万。

一般需要大数据处理的公司基本上都是大公司，所以学习hadoop技术也是进大公司的捷径！

中关村被称为中国硅谷，这里有着一群被外界称之为程序员的IT从业者。

但是一眼望去，大多数一线程序员的年龄均在20至30岁左右，40、50岁的人在这个行业内颇为罕见。

为什么在国内没有"老"程序员，而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是？造成这种现象的原因是多方面的。

Hadoop工程师工资

年薪30-50万一个成熟Hadoop工程师
Hadoop入门薪资已经达到了 8K 以上，工作1年可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万。
你还在等什么呢？

五、hadoop课程

【课程背景】

随着科技的发展，极大地提高了数据生成的速度，已经远远超出了传统数据分析工具处理的能力；是否具备使用大规模分布式数据分析平台的能力，成为判定一个数据分析开发者能力高低的一个重要标准。本课程重点在于讲授大规模数据分析的理念与开发实战，使得学员快速掌握基本的开发技巧。

【课程特色】

理论讲解与实操相结合，开发演示与现场指导相结合；以理论为基础，重点在于数据分析开发实战。

【教学目标】

1、学习大数据处理相关技术与理论；

2、全面学习使用Hadoop生态系统进行数据分析的技术；

3、Spark及其相关框架进行快速机器学习的技术。

【目标用户】

有一定编程基础的数据分析爱好者，最好具备Java或者Python开发经验。

【老师介绍】

高老师，中国科学院博士后，主要研究方向为机器学习与推荐系统，曾以核心人员身份参与国家重大项目四项，在国内外学术期刊与会议上发表论文十余篇，申请发明专利多项，目前已授权一项。近年来，致力于机器学习技术在互联网企业中的应用与推广，已为电商、互联网、广告等领域公司设计并主持开发了数据分析系统七套。

【培训时间】：8月6日~8月28日逢周六周日上课(8天)，9:00~12:00 13:30~17:00

【团购优惠】：

1）3人以上9折，5人以上8折；

2）免费办理工信部专项技术证书（工本费400元/人）

【教学大纲】

第一天

Hadoop基础

Hadoop产生的背景
Hadoop设计目标、适合的场景
Hadoop生态圈以及各组成部分的简介
Hadoop 2.0 产生背景及基本构成
Hadoop安装与配置
HDFS 2.0、MapReduce 2.0
Hadoop核心MapReduce简单例子说明

Hadoop数据的存储-HDFS

分布式文件系统 DFS 简介
HDFS 的设计原理
HDFS 的组成部分详解
副本存放策略及路由规则
HDFS 基本操作与配置管理
客户端与 HDFS 的数据流讲解
HDFS API 开发入门：命令行接口、Java 接口
HDFS 的高可用性（HA）与NN Federation

第二天

Hadoop数据的存储-HBASE

HBASE 简介
HBASE 安装与配置
HBase的系统架构与特性
HBASE 和 RDBMS 的异同
HBASE 客户端软件介绍
HBase的表结构，RowKey，列族和时间戳
HBASE 表操作
HBase中的 Master，Region 以及 Region Server
HBase上的MapReduce
HBASE 实践案例

MapReduce开发模型

MapReduce基本原理与架构
MapReduce的运行过程
深入理解 map、reduce 计算模型
MapReduce开发环境搭建
搭建MapReduce的 java 开发环境
使用MapReduce的 java 接口实现数据分析应用
MapReduce的类型与格式
简单MapReduce应用开发
剖析伪分布式下MapReduce作业的执行过程
数据序列化

第三天

MapReduce高级进阶

常见MapReduce设计问题
用户定制数据
多数据源的连接
关系数据库的链接与访问

机器学习基本知识

第四天

使用Hadoop进行数据分析案例

聚类分析应用
分类算法的应用

第五天

Spark基础

Spark概述
Spark生态系统
Spark的安装与配置
Spark开发环境的搭建
Spark交互式工具Spark-shell的使用

Spark的编程模型

Spark计算模型
RDD基础
RDD的操作、特点与依赖关系
持久化机制
Transformation、Action算子及其功能介绍

第六天

Spark SQL

Hive入门
数据的读取与存储
Spark SQL进阶操作
Spark SQL实战示例

Spark Streaming实时机器学习

Spark Streaming原理
Spark Streaming运行方式
Spark Streaming的缓存与容错
Spark Streaming实战示例

第七天

使用MLib进行机器学习

机器学习基础概述
常用机器学习算法讲解
1. 分类算法
2. 聚类算法
3. 回归算法
4. 特征选择
MLib中机器学习算法的使用
MLib实战示例

图运算与GraphX基础

图论基础
GraphX架构概述
GraphX实战示例

第八天

Spark的运维

运行架构概述
Standalone运行过程
Spark on YARN
Spark性能优化基础

Spark源码阅读入门与企业应用概述

【大纲思维导图】

【报名流程】

1.在线填写报名信息报名表填写

2.给予反馈，确认报名信息

3.网上缴费

4.开课前一周发送电子版课件和教室路线图

【联系我们】

咨询电话：400-070-7620

在线QQ①：1796318148 在线QQ②：149104196

往期掠影：

0 0