大数据基础:Hadoop2.x生态系统(一)
来源:互联网 发布:潜龙谍影1java 编辑:程序博客网 时间:2024/05/24 05:45
一、基础概念 & 适用场景
1、分布式文件系统(HDFS)
HDFS是Hadoop分布式文件系统,HDFS有如下技术特点和应用场景:
- 适合处理超大文件,数量级达到GB、TB甚至PB级
- 支持集群规模的动态扩展
- 适用于流式数据读写的场景,即“一次写入,多次读取”
- 具有高容错性,数据块可以保存多个副本,实现负载均衡
- 对硬件要求低,能够运行在廉价的商用机器集群
不适用于如下场景:
- 不适合需要高效存储大、量小的场景
- 不适合低延迟的数据访问场景
- 不适合多用户同时写和任意修改该文件场景
2、分布式计算框架(MapReduce)
MapReduce是一个分布式并行编程模型,将计算任务分布在成百上千个节点组成的集群进行并行计算,并返回计算结果。
MapReduce计算模型有如下优点和使用场景:
- 具有高度可扩展性,可动态增加/削减计算节点
- 具有高容错能力,支持任务自动迁移、重试和预测执行,不受单点故障影响
- 能实现灵活的资源分配和调度,达到资源利用的最大化
- 可部署在几千台机器的超大规模集群尚,使MapReduce可以处理具有超大规模数据的业务场景
- MapReduce模型使用方便,易于编程,简化了分布式程序设计,提高了开发效率且支持多开发语言
不适合使用MapReduce计算模型的场景:
- MapReduce计算的时延较高,对实时性要求较高的场景不合适使用
- MapReduce适合顺序批量处理数据,处理随机访问的能力不足,因此需要处理随机数据的场景也不适用MapReduce
3、分布式集群管理系统(Zookeeper)
Zookeeper是一个针对大型分布式系统的可靠协调系统。在大数据系统中,Zookeeper为Hadoop生态系统中各组件提供功能支撑。
Zookeeper主要有如下常见应用场景:
- 为分布式应用系统提供同一的配置管理信息
- 为分布式应用系统提供同一的命名服务
- 提供基于简单原语的分布式同步操作
- 集群管理
4、数据仓库工具(Hive)
Hive是基于Hadoop平台的数据仓库工具。适用于如下场景:
- 海量数据的离线分析
- 结构化数据的处理
5、分布式数据库(HBase)
HBase是基于HDFSd的面向列的分布式数据库系统,HBase具有高可靠性、高性能、列存储、可伸缩、实时读写的特点。
HBase适用于如下场景:
- 存储和查询半结构化和非结构化的数据
- 存储和查询记录稀疏的数据
- 存储和查询超大数据量的数据
- 业务场景简单,不需要全部关系数据库特性的场景
0 0
- 大数据基础:Hadoop2.x生态系统(一)
- Hadoop生态系统介绍(大数据基础系列一)
- 大数据生态系统基础:Hadoop(一):介绍和安装
- 大数据生态系统基础:Apache Kafka基础(一):介绍和安装
- 大数据生态系统基础:Apache Kafka基础(一):介绍和安装
- 大数据生态系统基础:Apache Spark(一):介绍和编译、安装
- 大数据生态系统基础: HIVE(一):HIVE 介绍及安装、配置
- 大数据生态系统基础: HBASE(一):HBASE 介绍及安装、配置
- 大数据生态系统基础:Apache Kafka基础(二):最新kafka编程入门:Producer API
- 大数据生态系统基础:Apache Kafka基础(三):最新kafka编程入门:Consumer
- 大数据生态系统基础:Apache Kafka基础(四):最新kafka编程入门:Stream API
- 大数据生态系统基础:Hadoop(五):Hadoop 3.0.0 HDFS读写及编程基础
- 大数据的生态系统
- 大数据hadoop生态系统
- 大数据生态系统
- 大数据生态系统基础:Apache Spark(二):运行环境和实例演示
- 大数据生态系统基础:Apache Spark(三):Java 版本编程实例(WordCount)
- 大数据生态系统基础:Hadoop(二):Hadoop 3.0.0集群安装和验证
- 前端web开发的MVC模式
- Android 基础学习 (二) : Intent 类
- “刺死辱母者”案:法院未认定正当防卫值得商榷
- Oracle GoldenGate Java Adapter 开发介绍
- Tcar:智能车之基于rtl8188eu驱动的wifi模块
- 大数据基础:Hadoop2.x生态系统(一)
- python实现strand_sort排序算法
- 一组Logstash与elasticsearch的压测数据[转]
- MVC项目实例--GuestBook
- BigDecimal类详解
- 又一例 select for update 的悲观锁使用所引发的血案
- c/c++生成随机数
- 0326
- Netty学习(三)-Netty重要接口讲解