Hadoop认知--在不同的阶段

来源：互联网发布：红黑树算法 java 编辑：程序博客网时间：2024/06/10 05:51

入门阶段

出于兴趣，及工作中的简单实用，大约经过1个月的时间，完成了对Hadoop的基本认知。

在这个月中我干了如下几件事

1、大体看了《Hadoop权威指南》，把里面的代码手工码了一遍，并写了8篇学习笔记

2、配置了Hadoop1和Hadoop2集群，都是用4台虚拟机

3、听了一些Hadoop视频

基本认知如下

Hadoop是一种大数据处理框架，这种大数据框架所能处理的场景实际是非常非常有限的，只能是键值对数据，只能是一行一行的固定格式化的数据，这种特性决定了它非常适合用来处理日志类文件，进行数据分析和挖掘。

Hadoop的核心是HDFS和MapReduce，HDFS是一种分布式的文件系统，MapReduce就是上面说的键值对计算模型，每次MapReduce计算任务都有一个固定的任务执行流程，所以对于小量数据分析来说（比如几万行数据），MapReduce其实一点都不快，用其他的编程方式处理，其实瞬间就完成了，MapReduce的这种工作方式只适合处理大数据，当然，Hadoop本身就是为大数据而生的。

Hive被我略过了，认知肤浅，先忽略。

Hbase所谓使用的变态数据插入场景，可能实际工作很难遇到，并且Mongo更易用，我做搜索推荐时，实际是使用Mongo存储中间数据及计算结果。

Cassandra，被略过了，工作中使用redis，并且redis3.0开始，支持分片了，简单易用，性能高效。

Pig，当前没有意愿花时间去学这样一个脚本语言，对于有大量基于Hadoop进行查询分析业务的公司，可能有使用的必要。

Sqoop，没有使用，先忽略。

Zookeeper，这真是个好东西，很多开源框架都使用Zookeeper作为开分布式协调中心，比如Dubbo、Otter等。

从学习成本角度，横向比较的话，我感觉Hadoop可以说和MySql之类是一个量级的产品，很快会用，但是想进阶，想精通，就需要在理论的基础上，在应用中不断的实践了。

进阶阶段

通过大量的日常工作中的Hadoop的使用，可以达到进阶阶段。

工作使用较少，我还是入门水平，期望有大量使用的机会，早日进阶，也让我知道在进阶阶段，我会对Hadoop是怎样的一个认知，再回来补充这篇日志

0 0