hadoop学习要点
来源:互联网 发布:外国人看中国网络审查 编辑:程序博客网 时间:2024/05/15 01:38
一、HDFS
(一)HDFS 概念
(二)HDFS命令行接口
(三)Java 接口
(四)文件读取和文件写入,一致性
(五)集群数据的均衡
(六)存档
(七)NameNode 单点故障问题
(八)大量小文件处理策略
(九)数据备份和恢复
(十)数据安全
(十一)负载均衡和垃圾回收
(十二)安装新节点
(十三)卸载节点
(十四)HDFS优化
(十五)HDFS格式化过程
(十六)数据压缩
(十七)当前单NameNode 的优势和劣势和改进办法
(十八)HDFS架构和设计要点
1. NameNode和DataNode
2. 文件系统的NameSpace
3. 镜像和编辑日志
4. 数据拷贝
5. 文件系统元数据的持久化
6. 通讯协议
7. 健壮性
8. 数据组织
9. 可访问性
二、Hadoop I/O
(一)数据完整性
(二)压缩
(三)序列化
(四)基于文件的数据结构
1. MapFile
2. SequenceFile
三、MapReduce 工作机制
(一)MapReduce Job运行过程
(二)TaskTaker 机制
(三)JobTraker机制
(四)任务失败
(五)Job的调度
(六)Suffer 和排序
(七)任务的执行
(八)配置优化和MapReduce Job优化
四、MapReduce Job 编写
(一)MapReduce 组件
(二)输入格式
(三)输出格式
(四)计数器
(五)链接
Map端链接
Reduce端链接
(六)排序
部分排序
全排序
辅助排序
(七)边数据分布
五、读Mysql数据
六、自定义组件
七、用MapReduce 实现矩阵乘法
八、用MapReduce 实现常见机器学习算法
九、Reduce 不均匀
分区的Key和分区函数是操作Reduce分区造成不均匀的原因,策略:修改
十、MapReduce设计模式
(一)摘要模式
(二)过滤器模式
(三)数据组织模式
(四)Join模式
(五)元模式
(六)输入输出模式
(七)吞吐量和趋势
- hadoop学习要点
- hadoop要点
- Hadoop分布式文件系统要点
- hadoop要点(一)
- hadoop 环境搭建要点
- hadoop要点(二)
- hadoop要点(二)
- hadoop要点(三)
- hadoop要点(四)
- 【Hadoop】集群配置要点
- 学习要点
- 学习要点
- Hadoop架构和设计要点
- Hadoop架构和设计要点
- Hadoop YARN架构设计要点
- Hadoop YARN架构设计要点
- Hadoop YARN架构设计要点
- Hadoop YARN架构设计要点
- carrot2 Workbench org.apache.http.client.HttpResponseException: Not Found 以及其他类找不到错误的解决办法
- Mybatis的连接池
- 设计模式 ( 十五 ) 中介者模式Mediator(对象行为型)
- 整数
- 数字集成电路设计-3-除法器的verilog简单实现(续)
- hadoop学习要点
- 从Linux驱动角度说阻塞/非阻塞与异步/同步
- 未能加载文件或程序集“System.WEB.DataVisualization, Version=3.5.0.0, Culture=neutral。。。
- Redo 和Undo的区别和联系 详细解释
- 使用 Servlet 作为控制器,标准MVC模式
- 平时笔记链表——3
- 11.8小结
- Tiny6410 led 驱动实现分析
- java常用工具类,直接用省的自己写了,很完整。