Hadoop相关概念整理

来源：互联网发布：菲律宾网络博客编辑：程序博客网时间：2024/06/11 16:28

1，Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架。Hadoop目标是支持大的数据文件并且是以顺序读为主，以文件的读的吞吐量为目标，并结合与Mapreduce框架紧密结合
2，Hadoop由 HDFS MapReduce Hbase Hive和Zookeeper组成，其中HDFS和ZooKeeper最重要成员。
3，Hadoop的优点：扩容能力成本低高效率可靠性缺点：并发控制缓存一致性小文件读写
4，适合mapreduce处理的数据集有一个基本要求：待处理的数据集可以分解成许多小的数据集，而且每个小的数据集都可以完全并行的处理
5，input（split）--》map tasks（map） ---》reduce tasks（reduce）--》output（part）
6，Hadoop相关
   common 一组分布式文件系统和通用IO的组件和接口
   MapReduce 分布式数据处理模型和执行环境，运行于大型商用机集群
   HDFS 分布式文件系统，运行于大型商用机集群
   PIG 一种数据流语言和运行环境，用于检索非常大的数据集。pig运行在MapReduce和HDFS上
   Hive 一个分布式按列存储的数据参考过 hive管理hdfs中存储的数据并提供基于sql的查询语言以查询数据
   Hbase一个分布式按列存储的数据库 hbase使用hdfs作为底层存储同事支持Mapreduce的魄力计算和点查询
   Sqoop 在数据库和hdfs之间高效传输数据的工具
7，MapReduce MapReduce
   GFS       HDFS
   Bigtable Hbase
8，MapReduce是一种编程模型，用于大规模数据集的并行计算，Map映射和Reduce化简。当前的软件实现是指定一个Map函数，用于把一组键值对映射成新的键值对，并指定并发的reduce函数化简。

0 0