初识hadoop

来源:互联网 发布:淘宝信用贷款 编辑:程序博客网 时间:2024/06/07 12:39

hadoop 提供了一个可靠的共享存储和分析系统,hdfs实现存储,mapreduce 实现分析处理,这两部分是它的核心。

mapreduce和关系型数据库的区别

 1. 关系型数据库处理GB级别数据大小的任务,mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据,mapreduce处理非结构化或者半结构化数据非常有效,因为处理数据时才对数据进行解释 3. 关系型数据往往是规范的,以保证其数据的完整性不含冗余,然而mapreduce的核心假设之一就是它可以支持高速的流式读写操作。 4. map函数和reduce函数不需要关注数据集及其所用集群大小,因此可以原封不动的应用到小规模或者大规模数据集上,如果输入的数据量是原来的两倍,其运行的时间也是以前的两倍,但如果集群上原来的两倍,作业的运行的速度仍然和以前一样快,关系型数据库的sql不具备这样的特性。

hadoop项目:

1.mapreduce:分布式数据处理模型和环境,运行于大型商用机集群2.hdfs:分布式文件系统,运行于大型商用机集群3.pig:一种数据流语言和运行环境,用以检索非常大的数据集,pig运行在mapreduce和hdfs的集群上。4.hive:一个分布式,按列存储的数据仓库。hive管理hdfs中存储的数据,并提供基于sql的查询语言。(由运行时引擎翻译成mapreduce作业)用以查询数据。5.hbase:一个分布式,按列存储的数据库,hbase使用hdfs作为底层存储,同时支持mapreduce的批量式计算和点查询(随机抽取)6.zookeeper:一个分布式、可用性高的协调服务。其提供分布式锁之类的基本服务用于构建分布式应用(比较通俗的用法:用于调度,比如定时更新脚本,按天计算脚本等等)7.sqoop:在数据库和hdfs之间高效传输的工具(用sqoop将关系型数据导入到hdfs中,也可以将hdfs中计算过的数据结果再sqoop到关系型数据库中)
原创粉丝点击