HDFS工作机制

来源：互联网发布：云上贵州大数据比赛编辑：程序博客网时间：2024/05/19 06:47

一些特点

1. HDFS集群分为两大角色：NameNode、DataNode

2. NameNode负责客户端请求的响应,负责管理整个文件系统的元数据

3. DataNode 负责管理用户的文件数据块

4. 文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上，默认大小在hadoop2.x版本中是128M

5. 每一个文件块可以有多个副本，并存放在不同的datanode上

6. Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量

7. HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行

HDFS可不可以用来做网盘

答案：不可以,

网盘只存储，不用做分析，hdfs在增加节点，同时也加大了分析能力，主要是大容量存储之上的数据分析
1、容量成本太高，2、文件大小不确定，如果存大量小文件会造成很大的浪费 3、相对于网盘来说，文件读写的效率低 4、只适合一次写入，多次读取的操作 5、hdfs不支持文件内容修改，可支持往文件尾部追加内容。

写操作

读操作

元数据

NameNode维护了一个hdfs的目录树及hdfs目录结构与文件真实存储位置的映射关系

namenode对元数据的管理采用了三种存储形式：

内存元数据(NameSystem)
磁盘元数据镜像文件
数据操作日志文件

元数据存储机制
A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)
C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（editslog）

注：当客户端对hdfs中的文件进行新增或者修改操作，操作记录首先被记入edits日志文件中，当客户端操作成功后，相应的元数据会更新到内存meta.data中

CheckPoint机制

因为namenode本身的任务就非常重要，为了不再给namenode压力，日志合并到fsimage就引入了另一个角色secondarynamenode。secondarynamenode负责定期把editslog合并到fsimage，“定期”是namenode向secondarynamenode发送RPC请求的，是按时间或者日志记录条数为“间隔”的，这样即不会浪费合并操作又不会造成fsimage和内存元数据有很大的差距。因为元数据的改变频率是不固定的。
　　每隔一段时间，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）。

阅读全文

0 0