Hadoop系统化学习提纲

来源：互联网发布：绝地求生游戏优化编辑：程序博客网时间：2024/05/16 09:08

一、集群安装监控和管理

模块一 EasyHadoop集群入门
·Hadoop暴风应用案例 http://tech.watchstor.com/spec/salon/20120512/#585565-baidu-1-49444-69d7345a4fe33e9a9d9dabb775dd2d10
·EasyHadoop Manager安装及部署
模块二 Hadoop集群管理
·Hadoop常见使用命令
·Hadoop运维故障及解决
·Hadoop使用工具
·Hadoop其他应用案例

模块三 EasyHadoop集群配置:机架感知,开启压缩和任务均衡
·Hadoop 集群安装和开启LZO压缩
·Hadoop 配置集群具备机架感知
·Hadoop 集群开启公平任务调度器
·Hadoop 集群开启能力任务调度器
模块四 Hadoop 集群维护与管理
·查看集群状态
·HDFS数据管理
·Mapreduce 任务管理
·HDFS安全模式
·模拟集群Namenode,jobtrack失效
·添加删除节点
·数据平衡
·文件数据跨集群拷贝
·集群升级
模块五 Hadoop 集群规划和测试
·集群规划(硬件,系统,网络)
·集群性能测试
模块六 Hadoop 集群监控和运维
·使用Ganglia 监控Hadoop集群
·使用Cacti 监控操作系统
模块七 Hadoop HDFS高可用
·Hadoop 元数据NFS备份方案
·Hadoop SecondaryNameNode备份方案
·Hadoop CheckpointNode备份方案
·Hadoop BackupNode备份方案
·Hadoop Cloudera HA Namenode 方案

二、MapReduce编程基础

模块一 Hadoop MapReduce流程分析　
·Hadoop JobTracker 详解回顾
·Hadoop TaskTracker 详解回顾
·Hadoop 任务提交流程详解
模块二使用 Hadoop MapReduce Streaming 编程　
·Hadoop Streaming 和 Java MapReduce Api 差异。
·学习使用 MapReduce 实现数据库功能,比如select group by join union all )
模块三 MapReduce分布式程序　
·MapReduce流程
·剖析一个MapReduce程序
·基本MapReduceAPI 概念
·驱动代码
·Mapper
·Reducer
·API 使用Eclipse进行快速开发
·上机实验
·新MapReduce API
模块四 Hadoop 核心代码导读　
·Hadoop Mapper 类核心代码导读
·Hadoop Reducer 类核心代码导读
模块五 HDFS分布式文件系统编程　
·Hadoop HDFS 回顾
·Hadoop NameNode 回顾
·Hadoop DataNode 回顾
·hadoop I/O 操作
·使用Hadoop HDFS API对HDFS编程
模块六 Hadoop Mapreduce高级编程　
· ToolRunner介绍
·使用MRUnit进行测试
·利用Combiners来减少中间数据
·使用Configure和Close方法来进行Map/Reduce设置和关闭
·编写Partitioner来优化负载平衡
·上机实验
·直接访问Hadoop分布式文件系统（HDFS）
·使用分布式缓存（Distributed Cache）
·上机实验
模块七 MapReduce的优化　
·map优化
·reduce优化
·小文件优化
模块八 MapReduce的任务调度　
·Queue调度的使用
·公平调度的使用
·能力调度的使用
模块九 MapReduce编程实战　
·Hadoop的join操作
·Hadoop的二次排序
·Hadoop的海量日志分析
模块十 flume+hadoop日志的收集实战　
·flume介绍
·flume核心组件讲解
·flume自带的组件分析
·flume二次开发实战

三、Hive、Pig、Mahout 数据挖掘

数据挖掘
模块一 EasyHive仓库集群
·Hive的作用和原理说明
·Hadoop仓库和传统数据仓库的协作关系
·Hadoop/Hive仓库数据数据流
·Hive 部署和安装
·Hive Cli 的基本用法
·HQL基本语法
模块二 EasyHive仓库集群高级
·使用JDBC 连接Hive进行查询和分析
·使用正则表达式加载数据
·HQL高级语法
·编写UDF函数
模块三 EasyHive仓库优化
·使用Hive分区优化查询
·使用Lzo压缩优化数据存储容量
·HiveServer HA (使用haproxy提高HiveServer可用性)
·编写Hive自定义MapReduce脚本优化查询
·Hive数据倾斜和查询性能优化
模块四 EasyHive仓库外围系统
·使用Sqoop进行数据分析
·使用oozie配置工作流
·phpHiveAdmin 安装和使用
Mahout数据挖掘
模块一推荐算法
·推荐算法介绍
·item-base 算法mapreduce 实现
模块二分类算法
·基于MapReduce的文本分类算法
模块三聚类算法
·聚类算法原理介绍
·使用MapReduce研发聚类算法
模块四其他挖掘算法
·关联规则算法和MapReduce实现
·标签传播算法和MapReduce实现

四、HBase入门和高级
模块一 HBase简介和架构（0.5h）
HBase基本概念
HBase架构和核心模块介绍
HBase存储逻辑结构介绍
模块二 HBase核心知识点（0.5h）
基本方法：Get/Put/Scan/Delete
列式存储核心：LSM
日志系统：WAL
底层存储：HFile
复制、备份：Replication
过渡期：RIT
分裂、合并：Split/Compact
负载均衡：Load Balance
模块三 HBase高级应用简单介绍（0.5h）
批量记载：bulk load
监控系统：OpenTSDB
主键设计：key design
二级索引：secondary index
协处理器：Coprocessors
过滤器：bloomfilter
版本：version
模块四安装、部署、启动（2h）
集群下安装部署HBase
启动HBase，启动顺序
测试启动多种方法
模块五常用接口介绍、案例讲解（2.5h）
native java接口
shell client
thrift接口
“用户搜索日志查询系统”案例讲解（包含2种接口实现、随机批量写入、查询用户搜索结果）
五、Hadoop数据与集群安全
模块一安全开放hadoop集群概述小集群蜕变为开放平台要素
模块二 hadoop安全认证 kerberos认证协议分析、hadoop集成kerberos配置、kerberos管理与应用
模块三 hadoop权限控制自定义权限模块、用户权限组划分、资源权限规划、队列池管理
模块四 hadoop灾备数据迁移、通过案例描述灾难发生带来的损失、HA方案、次灾备方案
模块五运营监控及报表 MapReduce自动化诊断、运营数据采集、运营报表分析、集群参数优化
六、集群环境调优与Debug

0 0