程序博客网 > 外国人看中国网络审查

hadoop学习要点

来源：互联网发布：外国人看中国网络审查编辑：程序博客网时间：2024/05/15 01:38

一、HDFS

（一）HDFS 概念

（二）HDFS命令行接口

（三）Java 接口

（四）文件读取和文件写入，一致性

（五）集群数据的均衡

（六）存档

（七）NameNode 单点故障问题

（八）大量小文件处理策略

（九）数据备份和恢复

（十）数据安全

（十一）负载均衡和垃圾回收

（十二）安装新节点

（十三）卸载节点

（十四）HDFS优化

（十五）HDFS格式化过程

（十六）数据压缩

（十七）当前单NameNode 的优势和劣势和改进办法

（十八）HDFS架构和设计要点

1. NameNode和DataNode

2. 文件系统的NameSpace

3. 镜像和编辑日志

4. 数据拷贝

5. 文件系统元数据的持久化

6. 通讯协议

7. 健壮性

8. 数据组织

9. 可访问性

二、Hadoop I/O

（一）数据完整性

（二）压缩

（三）序列化

（四）基于文件的数据结构

1. MapFile

2. SequenceFile

三、MapReduce 工作机制

（一）MapReduce Job运行过程

（二）TaskTaker 机制

（三）JobTraker机制

（四）任务失败

（五）Job的调度

（六）Suffer 和排序

（七）任务的执行

（八）配置优化和MapReduce Job优化

四、MapReduce Job 编写

（一）MapReduce 组件

（二）输入格式

（三）输出格式

（四）计数器

（五）链接

Map端链接

Reduce端链接

（六）排序

部分排序

全排序

辅助排序

（七）边数据分布

五、读Mysql数据

六、自定义组件

七、用MapReduce 实现矩阵乘法

八、用MapReduce 实现常见机器学习算法

九、Reduce 不均匀

分区的Key和分区函数是操作Reduce分区造成不均匀的原因，策略：修改

十、MapReduce设计模式

（一）摘要模式

（二）过滤器模式

（三）数据组织模式

（四）Join模式

（五）元模式

（六）输入输出模式

（七）吞吐量和趋势

外国人看中国网络审查

外国人看中国网络审查

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子铿组词大唐好大哥铿惑铿锵铿锵怎么读铿锵的意思铿锵有力铿锵近义词铿锵读音铿锵拼音铿锵三人行铿锵的拼音铿锵男孩铿锵玫瑰意思铿锵玫瑰歌词铿锵的反义词铿锵的近义词铿锵红颜之风行天下铿锵玫瑰原唱风雨彩虹铿锵玫瑰歌词铿锵种田记事风雨彩虹铿锵玫瑰原唱铿锵什么意思铿锵三人行为啥停播铿锵有力的拼音铿锵有力的意思是什么铿锵的近义词是什么铿锵的意思是什么铿锵玫瑰是什么意思铿锵的近义词和反义词是什么铿锵有力的出征誓词铿锵的反义词是什么铿锵有力是什么意思铿锵有力的意思窦文涛铿锵三人行铿锵玫瑰的含义是什么铿锵有力的近义词铿锵的近反义词是什么中销銷铭族净水器好不好康家净净水器怎么样