Hadoop入门

来源:互联网 发布:减肥吃什么知乎 编辑:程序博客网 时间:2024/06/01 19:23
建议:结合书本。如《Hadoop权威指南》《Hadoop技术详解》实践经验很重要,动手能力。

坚持非常重要。
预备知识:Linux常用命令,基本操作。Java编程基础。
Hadoop是开源的分布式存储和分布式计算的工具。
包含两个核心组成:HDFS分布式文件系统,MapReduce并行处理框架。
可用于搭建PB级数据仓库。
优势有:1.高扩展 2.低成本 3.成熟生态圈 已经成为业界大数据平台首选。
人才包括开发人才和运维人才。
**

Hadoop生态圈

**
Hadoop生态圈除了HDFS和MapReduce外还包括HIVE,用来将SQL语句转化为Hadoop任务来执行,降低了Hadoop的门槛。
HBase存贮结构化数据库。放弃了事物特性,追求高扩展。与HDFS不同,提供了数据的随机存取和实时访问。实现了对表数据的读写。
Zookeeper用于监控Hadoop集群中每个结点的状态,维护一致性。
Hadoop版本
学习阶段采用1.2版本,较为稳定。

原创粉丝点击