快来看!Hadoop+Spark大数据分析最佳实践研修班(第5期)深圳开班啦!

来源:互联网 发布:产品标贴制作软件 编辑:程序博客网 时间:2024/04/30 13:58

一、什么是Hadoop?

Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序成为"作业job",而从一个作业换分出的、运行于个计算节点的工作单元成为"任务task"。此外,Hadoop提供的分布式文件系统HDFS主要负责各个节点上的数据的存储,并实现了高吞吐率的数据读写。

二、Hadoop相关技术

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。

充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

  •  Hadoop Common
  •  在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common
  •  HDFS
  •  Hadoop分佈式文件系統(Distributed File System)-HDFS (Hadoop Distributed File System)
  •  MapReduce
  •  并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
  •  HBase
  •  类似Google BigTable的分布式NoSQL列数据库。(HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1])
  •  Hive
  •  数据仓库工具,由Facebook贡献
  •  Zookeeper
  •  分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献
  •  Avro
  •  新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制

三、Hadoop作用

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

四、什么是Hadoop工程师?

hadoop工程师主要是偏开发层面,指的是围绕大数据系平台系统级的研发人员, 熟练Hadoop大数据平台的核心框架,能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如:Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。

 

随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。

一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

中关村被称为中国硅谷,这里有着一群被外界称之为程序员的IT从业者。

但是一眼望去,大多数一线程序员的年龄均在20至30岁左右,40、50岁的人在这个行业内颇为罕见。

为什么在国内没有"老"程序员,而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是?造成这种现象的原因是多方面的。

Hadoop工程师工资

年薪30-50万  一个成熟Hadoop工程师
        Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。
你还在等什么呢?

 

五、hadoop课程

【课程背景】

随着科技的发展,极大地提高了数据生成的速度,已经远远超出了传统数据分析工具处理的能力;是否具备使用大规模分布式数据分析平台的能力,成为判定一个数据分析开发者能力高低的一个重要标准。 本课程重点在于讲授大规模数据分析的理念与开发实战,使得学员快速掌握基本的开发技巧。

【课程特色】

理论讲解与实操相结合,开发演示与现场指导相结合;以理论为基础,重点在于数据分析开发实战。

【教学目标】 

1、学习大数据处理相关技术与理论;

2、全面学习使用Hadoop生态系统进行数据分析的技术;

3、Spark及其相关框架进行快速机器学习的技术。

【目标用户】

有一定编程基础的数据分析爱好者,最好具备Java或者Python开发经验。

【老师介绍】

高老师,中国科学院博士后,主要研究方向为机器学习与推荐系统,曾以核心人员身份参与国家重大项目四项,在国内外学术期刊与会议上发表论文十余篇,申请发明专利多项,目前已授权一项。近年来,致力于机器学习技术在互联网企业中的应用与推广,已为电商、互联网、广告等领域公司设计并主持开发了数据分析系统七套。

 

【培训时间】:8月6日~8月28日 逢周六周日上课(8天),9:00~12:00    13:30~17:00

【团购优惠】:

1)3人以上9折,5人以上8折;

2)免费办理工信部专项技术证书(工本费400元/人)

【教学大纲】

第一天

Hadoop基础

  1.  Hadoop产生的背景
  2.  Hadoop设计目标、适合的场景
  3.  Hadoop生态圈以及各组成部分的简介
  4.  Hadoop 2.0 产生背景及基本构成
  5.  Hadoop安装与配置
  6.  HDFS 2.0、MapReduce 2.0
  7.  Hadoop核心MapReduce简单例子说明

Hadoop数据的存储-HDFS

  1.  分布式文件系统 DFS 简介
  2.  HDFS 的设计原理
  3.  HDFS 的组成部分详解
  4.  副本存放策略及路由规则
  5.  HDFS 基本操作与配置管理
  6.  客户端与 HDFS 的数据流讲解
  7.  HDFS API 开发入门:命令行接口、Java 接口
  8.  HDFS 的高可用性(HA)与NN Federation

第二天

Hadoop数据的存储-HBASE

  1.  HBASE 简介
  2.  HBASE 安装与配置
  3.  HBase的系统架构与特性
  4.  HBASE 和 RDBMS 的异同
  5.  HBASE 客户端软件介绍
  6.  HBase的表结构,RowKey,列族和时间戳
  7.  HBASE 表操作
  8.  HBase中的 Master,Region 以及 Region Server
  9.  HBase上的MapReduce
  10.  HBASE 实践案例

MapReduce开发模型

  1.  MapReduce基本原理与架构
  2.  MapReduce的运行过程
  3.  深入理解 map、reduce 计算模型
  4.  MapReduce开发环境搭建
  5.  搭建MapReduce的 java 开发环境
  6.  使用MapReduce的 java 接口实现数据分析应用
  7.  MapReduce的类型与格式
  8.  简单MapReduce应用开发
  9.  剖析伪分布式下MapReduce作业的执行过程
  10.  数据序列化

第三天

MapReduce高级进阶

  1.  常见MapReduce设计问题
  2.  用户定制数据
  3.  多数据源的连接
  4.  关系数据库的链接与访问

机器学习基本知识

第四天

使用Hadoop进行数据分析案例

  1.  聚类分析应用
  2.  分类算法的应用

第五天

Spark基础

  1.  Spark概述
  2.  Spark生态系统
  3.  Spark的安装与配置
  4.  Spark开发环境的搭建
  5.  Spark交互式工具Spark-shell的使用

Spark的编程模型

  1.  Spark计算模型
  2.  RDD基础
  3.  RDD的操作、特点与依赖关系
  4.  持久化机制
  5.  Transformation、Action算子及其功能介绍

第六天

Spark SQL

  1.  Hive入门
  2.  数据的读取与存储
  3.  Spark SQL进阶操作
  4.  Spark SQL实战示例

Spark Streaming实时机器学习

  1.  Spark Streaming原理
  2.  Spark Streaming运行方式
  3.  Spark Streaming的缓存与容错
  4.  Spark Streaming实战示例

第七天

使用MLib进行机器学习

  1.  机器学习基础概述
  2.  常用机器学习算法讲解

     

     

     

     

     

     

     

     

     

     

     

    1.  分类算法
    2.  聚类算法
    3.  回归算法
    4.  特征选择
  3.  MLib中机器学习算法的使用
  4.  MLib实战示例

图运算与GraphX基础

  1.  图论基础
  2.  GraphX架构概述
  3.  GraphX实战示例

第八天

Spark的运维

  1.  运行架构概述
  2.  Standalone运行过程
  3.  Spark on YARN
  4.  Spark性能优化基础

Spark源码阅读入门与企业应用概述

【大纲思维导图】

【报名流程】

1.在线填写报名信息 报名表填写 

2.给予反馈,确认报名信息

3.网上缴费

4.开课前一周发送电子版课件和教室路线图

【联系我们】

咨询电话:400-070-7620

在线QQ①:1796318148  在线QQ②:149104196

往期掠影:

 

0 0
原创粉丝点击