HDFS工作机制
来源:互联网 发布:云上贵州大数据比赛 编辑:程序博客网 时间:2024/05/19 06:47
一些特点
1. HDFS集群分为两大角色:NameNode、DataNode
2. NameNode负责客户端请求的响应,负责管理整个文件系统的元数据
3. DataNode 负责管理用户的文件数据块
4. 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上,默认大小在hadoop2.x版本中是128M
5. 每一个文件块可以有多个副本,并存放在不同的datanode上
6. Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量
7. HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行
HDFS可不可以用来做网盘
1、容量成本太高,2、文件大小不确定,如果存大量小文件会造成很大的浪费 3、相对于网盘来说,文件读写的效率低 4、只适合一次写入,多次读取的操作 5、hdfs不支持文件内容修改,可支持往文件尾部追加内容。
元数据
NameNode维护了一个hdfs的目录树及hdfs目录结构与文件真实存储位置的映射关系
namenode对元数据的管理采用了三种存储形式:
内存元数据(NameSystem)
磁盘元数据镜像文件
数据操作日志文件
元数据存储机制
A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)
C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(editslog)
注:当客户端对hdfs中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作成功后,相应的元数据会更新到内存meta.data中
CheckPoint机制
因为namenode本身的任务就非常重要,为了不再给namenode压力,日志合并到fsimage就引入了另一个角色secondarynamenode。secondarynamenode负责定期把editslog合并到fsimage,“定期”是namenode向secondarynamenode发送RPC请求的,是按时间或者日志记录条数为“间隔”的,这样即不会浪费合并操作又不会造成fsimage和内存元数据有很大的差距。因为元数据的改变频率是不固定的。
每隔一段时间,会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint)。
- HDFS工作机制
- HDFS工作机制
- hdfs工作机制
- HDFS的工作机制
- 深刻理解HDFS工作机制
- 深刻理解HDFS工作机制
- 深刻理解HDFS工作机制
- 深刻理解HDFS工作机制
- 深刻理解HDFS工作机制
- 深刻理解HDFS工作机制
- 深刻理解HDFS工作机制
- hdfs读写数据的工作机制
- HDFS基本特性以及工作机制
- HDFS 的工作机制:写操作
- HDFS 的工作机制:读操作
- HDFS的工作机制,HDFS写数据流程,HDFS读数据流程(来自学习资料)
- hdfs工作机制及读写数据简要流程图
- Hadoop系列-深刻理解HDFS工作机制(五)
- 【QT】深入qt信号与槽实现原理
- 高斯列主元消元法mpi实现
- Turan图
- 你的JWTs存储在哪里
- Unbuntu安装Docker
- HDFS工作机制
- 禁止文本框自动完成
- jvm调优
- 选定文本内容
- 三、基于Cortex-A8和ZigBee技术的智能家居监控系统的设计与实现
- jvm调优---典型配置
- JavaScript中的存储对象
- xmlHttp之post提交
- Failed to load the JNI shared library 解决方法