第一章 Apache Hadoop的介绍
来源:互联网 发布:阿里云的前端面试题 编辑:程序博客网 时间:2024/06/05 06:29
1,什么是Hadoop
它是一个可靠的,可扩展,分布式计算的开源软件。
2,Hadoop四大模块
1. Hadoop Common: 公共工具模块,支持其它模块。
2. Hadoop Distributed File System(HDFS™): 一个分布式文件系统,提供了高吞吐的访问应用数据。
3. Hadoop YARN: 一个JOB调度和集群资源管理的框架(云的操作系统)。
4. HadoopMapReduce: 基于YARN系统的用于大型数据集的并行处理系统。
3,Hadoop常用的子项目
1. Ambari: 一个基于web的Hadoop管理工具。
2. HDFS: 前身是NDFS,分布式文件系统,运行于大型商用机集群。
3. Core: 一系列分布式文件系统和通用I/O的组件和接口(序列化、javaRPC和持久化数据结构)。
4. Avro: 一种提供高效、跨语言RPC的数据序列系统,持久化数据存储。
5. Pig: 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。
6. Hbase: 一个分布式的,列存储数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询。
7. Zookeeper: 一个分布式的、高可用的协调服务。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。
8. Hive: 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。
9. Chukwa: 分布式数据收集和分析系统,运行HDFS中存储数据的收集器,使用MapReduce来生成报告。
10. Spark:是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job 中 间输出 结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
4,Hadoop的作用
1, 海量数据存储,HDFS 分布式文件系统
2, 海量数据分析,MapReduce 并行的离线计算框架
5,Hadoop版本:
1, 以0.20.x和1.x.x 版本为主
2, 0.23.x 版本为主
3, 2.x.x 版本为主
6,下载Hadoop2最近 版本:
http://hadoop.apache.org/releases.html,请下载源码,为我们以后的课程做准备。
- 第一章 Apache Hadoop的介绍
- Hadoop教程 第一章:教程介绍
- Hadoop教程 第一章:教程介绍
- Apache Hadoop 项目介绍
- Apache Hadoop 0.23 介绍
- 第一章 django的介绍
- 第一章 界面的介绍
- 第一章.bootstrap的介绍
- Apache Hadoop的体系结构
- Apache Hadoop 0.23 HDFS Federation介绍
- Apache Hadoop最全生态系统介绍
- Apache顶级项目介绍4 - Hadoop
- 了解apache Hadoop--Hadoop最全生态系统介绍
- Elasticsearch For Apache Hadoop (ES-Hadoop)最新介绍
- 《Apache Flume教程》第一章 Flume 的简介
- Hadoop的优势介绍
- Hadoop的版本介绍
- Hadoop 的简单介绍
- C++虚函数(10) - 虚函数能否为inline?
- 数据库访问性能优化
- PyQt5教程 - QtDesigner窗口设计工具的使用
- C++虚函数(11) - 纯虚函数与抽象类
- java中Statement详细用法。
- 第一章 Apache Hadoop的介绍
- oh my zsh mac 安装方法
- IPMsg源码阅读笔记(1)
- android 与 php交互 获取复杂json数据 +正在加载效果理解
- C++虚函数(12) - 纯虚析构函数
- LCD显示
- 自定义Tabs
- JAVA中实现double型数字丛右至左每三位用逗号隔开
- LeetCode | Contains Duplicate