hadoop生态系统常见组件介绍以及入门书籍

来源:互联网 发布:雕刻机制图软件 编辑:程序博客网 时间:2024/05/29 17:18

囊括了一些比较常见的组件以及相应的入门教程,教程大多是官网的用户手册,对于希望中文文档的同学可以网上搜索是否有中文文档或者看是否有相关的数据可以进行参考,对于想了解hadoop组件的同学会有一定的帮助。

基本组件

hdfs:用于进行分布式存储数据并提供可靠的灾备

mapreduce:用于进行分布式计划

yarn:hadoop2.0中引入,用于计算资源的分配以及调度,并且可适用于spark等

参考资料:以上为hadoop安装包已集成部分,介绍可以参考hadoop权威指南第四版,之前的版本还停留于hadoop1.0,对yarn讲解很少


Spark

更加适合进行迭代式运算以及需要数据共享的图形分析应用,会将中间结果存储于内存中方便快速的读取而不是像mapreduce会将结果存储至硬盘之后再从硬盘中读取,spark可以说是mapreduce的替代品而不是像hive,pig等将其转化为mapreduce任务。
参考教程:http://spark.apache.org/docs/latest/quick-start.html

HBase

是一个面向列存储的NoSql数据库,模型为google三大论文中的big table,只有字符串数据类型,提供与pig,thrift等的访问使用api等,具有低延时的特性,适合对访问延迟要求高的应用,不支持二级索引。
参考书籍:HBase权威指南

Hive

一款数据仓库工具,使用HQL查询语言,类似于SQL语句,与mysql语法比较接近。
参考教程:https://cwiki.apache.org/confluence/display/Hive/Tutorial

MongoDB

也是一个比较常用的NoSql数据库,适合集群上有大量的JSON文档并需要一些数据管理工具来有效使用它们,是一个面向文档型数据库,一行记录相当于一个JSON文档,支持二级索引.
参考教程:https://docs.mongodb.com/manual/tutorial/

Solr

基于Lucene,用于实现快速索引以及搜索大量文档中的内容,可以用来进行全文检索。
参考教程:https://wiki.apache.org/solr

ZooKeeper

是一个用于跨机器存储和分享少量状态以及配置数据的有效机制,如何HBase就需要在zookeeper的帮助下定位region的位置,详细教程可以参见以下教程。
参考教程:https://zookeeper.apache.org/doc/current/zookeeperStarted.html

Pig

Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换,并且不想编写MapReduce jobs就可以用Pig,提供了类似SQL语法,现在使用hive似乎更多一些,看各位的兴趣。
参考教程:https://cwiki.apache.org/confluence/display/PIG

Mahout

用于机器学习以及数据分析,提供了一些基于mapreduce的算法,如K-means,svd等,不过因为基于mapreduce进行计算,速度可能不尽如人意,现在也在逐渐像spark方向转移,对大数据分析以及机器学习的同学可以关注下该组件。
参考教程:http://mahout.apache.org/general/books-tutorials-and-talks.html

Mllib

spark的机器学习工具,提供了类似mahout中的一些功能,mllib提供算法没有mahout中的多,但是处理速度更快,大家可以进行选择。
参考教程:http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html

Sqoop

用来在Hadoop和关系型数据库如Mysql之间进行数据传输。
参考教程:http://sqoop.apache.org/docs/1.99.7/user.html

Flume

主要针对日志文件的采集,集合并且将大数据量的日志数据从多个来源上移动到hdfs中。
参考教程:http://flume.apache.org/FlumeUserGuide.html

Storm

hadoop的很多任务都是批处理的方式,而storm则提供了流处理模型来处理实时数据,是用来对那些大数据量的小记录快快速执行相对简单的的转换。
参考教程:http://storm.apache.org/releases/current/Tutorial.html

原创粉丝点击