初识hadoop

来源：互联网发布：淘宝信用贷款编辑：程序博客网时间：2024/06/07 12:39

hadoop 提供了一个可靠的共享存储和分析系统，hdfs实现存储，mapreduce 实现分析处理，这两部分是它的核心。

mapreduce和关系型数据库的区别

 1. 关系型数据库处理GB级别数据大小的任务，mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据，mapreduce处理非结构化或者半结构化数据非常有效，因为处理数据时才对数据进行解释 3. 关系型数据往往是规范的，以保证其数据的完整性不含冗余，然而mapreduce的核心假设之一就是它可以支持高速的流式读写操作。 4. map函数和reduce函数不需要关注数据集及其所用集群大小，因此可以原封不动的应用到小规模或者大规模数据集上，如果输入的数据量是原来的两倍，其运行的时间也是以前的两倍，但如果集群上原来的两倍，作业的运行的速度仍然和以前一样快，关系型数据库的sql不具备这样的特性。

hadoop项目：

1.mapreduce:分布式数据处理模型和环境，运行于大型商用机集群2.hdfs:分布式文件系统，运行于大型商用机集群3.pig:一种数据流语言和运行环境，用以检索非常大的数据集，pig运行在mapreduce和hdfs的集群上。4.hive：一个分布式，按列存储的数据仓库。hive管理hdfs中存储的数据，并提供基于sql的查询语言。（由运行时引擎翻译成mapreduce作业）用以查询数据。5.hbase:一个分布式，按列存储的数据库，hbase使用hdfs作为底层存储，同时支持mapreduce的批量式计算和点查询（随机抽取）6.zookeeper:一个分布式、可用性高的协调服务。其提供分布式锁之类的基本服务用于构建分布式应用（比较通俗的用法：用于调度，比如定时更新脚本，按天计算脚本等等）7.sqoop：在数据库和hdfs之间高效传输的工具（用sqoop将关系型数据导入到hdfs中，也可以将hdfs中计算过的数据结果再sqoop到关系型数据库中）

阅读全文

0 1