HDFS工作机制

来源:互联网 发布:云上贵州大数据比赛 编辑:程序博客网 时间:2024/05/19 06:47

一些特点

1. HDFS集群分为两大角色:NameNode、DataNode


2. NameNode负责客户端请求的响应,负责管理整个文件系统的元数据


3. DataNode 负责管理用户的文件数据块


4. 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上,默认大小在hadoop2.x版本中是128M


5. 每一个文件块可以有多个副本,并存放在不同的datanode上


6. Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量


7. HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行




HDFS可不可以用来做网盘

答案:不可以,
网盘只存储,不用做分析,hdfs在增加节点,同时也加大了分析能力,主要是大容量存储之上的数据分析
1、容量成本太高,2、文件大小不确定,如果存大量小文件会造成很大的浪费 3、相对于网盘来说,文件读写的效率低  4、只适合一次写入,多次读取的操作 5、hdfs不支持文件内容修改,可支持往文件尾部追加内容。

写操作

读操作


元数据

NameNode维护了一个hdfs的目录树及hdfs目录结构与文件真实存储位置的映射关系

namenode对元数据的管理采用了三种存储形式:

内存元数据(NameSystem)
磁盘元数据镜像文件
数据操作日志文件

元数据存储机制
A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)
C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(editslog)

注:当客户端对hdfs中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作成功后,相应的元数据会更新到内存meta.data中

CheckPoint机制

       因为namenode本身的任务就非常重要,为了不再给namenode压力,日志合并到fsimage就引入了另一个角色secondarynamenode。secondarynamenode负责定期把editslog合并到fsimage,“定期”是namenode向secondarynamenode发送RPC请求的,是按时间或者日志记录条数为“间隔”的,这样即不会浪费合并操作又不会造成fsimage和内存元数据有很大的差距。因为元数据的改变频率是不固定的。
  每隔一段时间,会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint)。




原创粉丝点击