Hadoop学习2:HDFS介绍
来源:互联网 发布:完美dota2 有mac版 编辑:程序博客网 时间:2024/06/05 00:45
HDFS:Hadoop Distributed File System:Hadoop分布式文件系统
简介
HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所在的节点上处理这些数据。
HDFS节点
- NameNode:(一般一个)
存储元数据(除文件内容之外的数据,如文件名,大小,权限等)因而,文件越多,NameNode数据越大。
保存在磁盘中,启动时加载到内存中(因此工作过程都是在内存中读数据);
保存文件,block和DataNode之间的映射关系。 - DataNode:(一般多个)
存储文件内容;
保存在磁盘中;
维护了block id到DataNode本地文件的映射关系。 - Secondary NameNode
HDFS运行机制
- 一般一个NameNode和多个DataNode
- 数据复制(冗余机制)
存放的位置:机架感知策略 - 故障检测:
数据节点:心跳包(是否宕机)、块报告(安全模式下检测)、数据完整性检测(校验和比较)
名字节点:日志文件,镜像文件 - 空间回收机制
HDFS架构
HDFS存储单元
- HDFS数据存储单元(block):是逻辑结构,不是磁盘空间
- 文件被切分成固定大小的数据块
默认数据块大小为128(老版本64)M,可配置
若文件大小不到128M,单独存一个block;超过,则被分割在几个block中。
一个block只能存储一个文件的数据。 - 一个文件存储方式
按大小被切分成若干个block,存储在不同的节点上
默认情况下每个block都有三个副本。 - Block大小和副本数通过Client端上传文件时设置。文件上传成功后副本数可以更改。Block size不接更改。
有一个Block的数据损坏,某个块的副本数小于指定数目,系统会自动备份,使数量和设置值一致。
HDFS优点
- 高容错性:数据自动保存多个副本;副本丢失后,自动恢复
- 适合批处理:移动计算而非数据,数据位置暴露给计算框架
- 适合大数据处理:10K+节点
- 可构建在廉价机器上:通过多副本提高可靠性,提供容错和恢复机制
HDFS缺点(不适用于)
- 低延迟数据访问(如订单):毫秒级、低延迟与高吞吐率;
- 小文件存取(可将小文件压缩到一个进行解决,但是压缩后不可更改):占用NameNode大量内存,寻道时间超过读取时间;
- 并发写入、文件随机修改:一个文件只能有一个写者,仅支持append。
阅读全文
0 0
- Hadoop学习2:HDFS介绍
- hadoop-hdfs学习2
- hadoop学习2--hdfs详解
- hadoop之HDFS介绍
- hadoop hdfs dfsadmin 介绍
- Hadoop hdfs 介绍 一
- Hadoop hdfs 介绍 二
- Hadoop之HDFS介绍
- Hadoop学习之HDFS/MapReduce/YARN进程介绍
- 深入学习Hadoop 2 - HDFS的读写
- 【hadoop 2学习】联合的HDFS
- Hadoop学习(2)----hdfs shell命令
- Hadoop HDFS 学习(2)理论
- Hadoop学习(2):HDFS基础
- Hadoop学习笔记(2)-hdfs原理
- Hadoop深入研究(HDFS)---HDFS介绍
- Hadoop学习之HDFS
- hadoop学习--HDFS
- Apache POI单元格/Cells
- Linux笔试面试题总结
- BeautifulSoup中的HTML解析器对比
- js数组去重
- 设置 SSH 通过密钥登录
- Hadoop学习2:HDFS介绍
- 博客续更说明
- 先成家后立业还是先立业后成家?
- js---JavaScript中的事件委托/事件代理,如何通过事件委托进行异步DOM事件监听
- C语言实现简易版扫雷游戏
- 一个python 循环执行oracle sql 的demo
- Caused by: java.lang.IllegalArgumentException: Result Maps collection already contains value for com
- 记一次有惊无险的Linux数据恢复过程
- 一个简短main方法讲透synchronized的正确用法