大数据学习2——大数据处理架构Hadoop概述
来源:互联网 发布:中世纪2优化9兵种 编辑:程序博客网 时间:2024/06/05 00:42
一 、Hadoop简介(转自百度百科)
Hadoop是Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
二 、Hadoop项目结构
HDFS:负责整个分布式文件的存储。
YARN:负责资源的管理和调度。
MapReduce:离线批处理,无法实现实时计算。
Tez:分析优化MapReduce作业,形成有向无环图。
Spark:逻辑与MapReduce类似,与MapReduce的区别是:Spark是基于内存的计算,MapReduce是基于磁盘的计算。
Hive:批量数据处理,实现数据仓库的功能。
Pig:流数据处理,轻量级的脚本语言。
Oozie:作业流调度系统,工作流管理工具。
Zookeeper:提供分布式协调服务,做分布式锁、集群管理等。
HBase:分布式数据库,支持随机读写和实时应用。
Flume:一个高可靠的、高可用的分布式海量日志采集、聚合和传输的系统。
Sqoop:用于Hadoop与传统数据库之间进行数据传输。
Ambari:Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控。
阅读全文
0 0
- 大数据学习2——大数据处理架构Hadoop概述
- 大数据处理架构Hadoop配置
- 1.大数据处理架构Hadoop
- hadoop大数据概述
- 大数据处理Hadoop学习文章
- 大数据架构hadoop
- 大数据架构hadoop
- 大数据学习1——大数据概述
- 【大数据工程师之路】Hadoop——概述
- 【大数据工程师之路】Hadoop——MapReduce概述
- Hadoop大数据系列---概述
- 大数据hadoop学习
- 大数据学习记录(day2)-Hadoop概述
- Hadoop大数据处理读书笔记
- Hadoop大数据处理流程
- 【大数据处理架构】SparkR
- Hadoop大数据平台架构与实践学习笔记
- 大数据下的数据分析-Hadoop架构解析(2)
- 什么是java序列化,如何实现java序列化?
- 简单背包问题
- Prism框架(三)——基于模块的应用程序开发
- 编译,反编译,混淆,【一】
- 我在学校网站一页面上无意间发现了一个漏洞
- 大数据学习2——大数据处理架构Hadoop概述
- 【Python】选择ipython替代python的理由
- 【Scikit-Learn 中文文档】无监督学习: 寻求数据表示
- 获取Excel sheet页中实际有效行数(不是我写的,但是也不是我转载的)
- Java中使用Jedis操作Redis
- 中间件kingshard入门(四):jmeter压测出现的问题too many open files
- vue加载时闪现模板的解决方法(例如加载数据之前出现item.name)
- 自定义View画五角星
- mt6735 CTS Google issue of android.holo