Hadoop相关概念整理

来源:互联网 发布:菲律宾网络博客 编辑:程序博客网 时间:2024/06/11 16:28
1,Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架。Hadoop目标是支持大的数据文件并且是以顺序读为主,以文件的读的吞吐量为目标,并结合与Mapreduce框架紧密结合
2,Hadoop由 HDFS MapReduce Hbase Hive和Zookeeper组成,其中HDFS和ZooKeeper最重要成员。
3,Hadoop的优点:扩容能力 成本低 高效率 可靠性  缺点:并发控制 缓存一致性 小文件读写
4,适合mapreduce处理的数据集有一个基本要求:待处理的数据集可以分解成许多小的数据集,而且每个小的数据集都可以完全并行的处理
5,input(split)--》map tasks(map) ---》reduce tasks(reduce)--》output(part)
6,Hadoop相关
   common 一组分布式文件系统和通用IO的组件和接口
   MapReduce 分布式数据处理模型和执行环境,运行于大型商用机集群
   HDFS 分布式文件系统,运行于大型商用机集群
   PIG 一种数据流语言和运行环境,用于检索非常大的数据集。pig运行在MapReduce和HDFS上
   Hive 一个分布式 按列存储的数据参考过  hive管理hdfs中存储的数据 并提供基于sql的查询语言以查询数据
   Hbase一个分布式 按列存储的数据库 hbase使用hdfs作为底层存储 同事支持Mapreduce的魄力计算和点查询
   Sqoop 在数据库和hdfs之间高效传输数据的工具
7,MapReduce MapReduce
   GFS       HDFS
   Bigtable  Hbase
8,MapReduce是一种编程模型,用于大规模数据集的并行计算,Map映射 和Reduce化简。当前的软件实现是指定一个Map函数,用于把一组键值对映射成新的键值对,并指定并发的reduce函数化简。
   

0 0
原创粉丝点击