Hadoop总结一:基础知识-Namenode,Datanode(非HA高可用性配置)
来源:互联网 发布:ov7670中文数据手册 编辑:程序博客网 时间:2024/06/16 22:50
客户端(client)用FileSystem的open()函数打开文件
DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息。
对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。
DistributedFileSystem返回FSDataInputStream给客户端,用来读取数据。
客户端调用stream的read()函数开始读取数据。
DFSInputStream连接保存此文件第一个数据块的最近的数据节点。
Data从数据节点读到客户端(client)
当此数据块读取完毕时,DFSInputStream关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点。
当客户端读取完毕数据的时候,调用FSDataInputStream的close函数。
在读取数据的过程中,如果客户端在与数据节点通信出现错误,则尝试连接包含此数据块的下一个数据节点。
失败的数据节点将被记录,以后不再连接。
客户端调用create()来创建文件
DistributedFileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件。
元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。
DistributedFileSystem返回DFSOutputStream,客户端用于写数据。
客户端开始写入数据,DFSOutputStream将数据分成块,写入data queue。
Data queue由Data Streamer读取,并通知元数据节点分配数据节点,用来存储数据块(每块默认复制3块)。分配的数据节点放在一个pipeline里。
Data Streamer将数据块写入pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。
DFSOutputStream为发出去的数据块保存了ack queue,等待pipeline中的数据节点告知数据已经写入成功。
如果数据节点在写入的过程中失败:
关闭pipeline,将ack queue中的数据块放入data queue的开始。
当前的数据块在已经写入的数据节点中被元数据节点赋予新的标示,则错误节点重启后能够察觉其数据块是过时的,会被删除。
失败的数据节点从pipeline中移除,另外的数据块则写入pipeline中的另外两个数据节点。
元数据节点则被通知此数据块是复制块数不足,将来会再创建第三份备份。
当客户端结束写入数据,则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点,并等待ack queue返回成功。最后通知元数据节点写入完毕。
HDFS安全模式
--当集群启动的时候,会首先进入到安全模式。安全模式是hadoop集群的一种保护方式。当系统处于安全模式时,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本率0.999。
我们的副本率0.6明显小于0.999,因此系统会自动的复制副本到其他dataNode,使得副本率不小于0.999。如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多于的3个副本。
总体来说,安全模式是hadoop的一种保护机制,用于保证集群中数据块的安全性的。
在命令行下是可以控制安全模式的进入、退出和查看的,
命令hadoop fs –safemode get 查看安全模式状态
命令hadoop fs –safemode enter 进入安全模式状态
命令hadoop fs –safemode leave 离开安全模式状态
- Hadoop总结一:基础知识-Namenode,Datanode(非HA高可用性配置)
- Hadoop之HA高可用性
- Hadoop双namenode配置搭建(HA)
- Hadoop双namenode配置搭建(HA)
- Namenode的高可用性总结
- hadoop源码解读namenode高可靠:HA;web方式查看namenode下信息;dfs/data决定datanode存储位置
- HiveMetaStore高可用性(HA)配置
- 搭建hadoop的高可用性(HA)集群
- Hadoop(5)-HA(High Available)高可用性机制
- hadoop namenode 高可用(HA)搭建指南 QJM方式
- Hadoop DataNode启动之创建NameNode代理(一)
- 第十三课记录 Hadoop HA 高可用性
- Hadoop HDFS高可用性(HA) 原理篇
- Hadoop HDFS高可用性(HA) 部署篇
- 什么是高可用性(HA)
- CHD4B1(hadoop-0.23)实现NameNode HA安装配置
- CHD4B1(hadoop-0.23)实现NameNode HA安装配置
- CHD4B1(hadoop-0.23)实现NameNode HA安装配置
- [ERROR] Can't find messagefile '/usr/bin/share/mysql/errmsg.sys'
- hiho一下 第六十六周
- C++Primer第五版 11.3.4节练习
- Hash Table哈希表和Hash List哈希链表的知识汇总
- Cannot add header view to list -- setAdapter has already been called.
- Hadoop总结一:基础知识-Namenode,Datanode(非HA高可用性配置)
- Git的基本使用
- URAL 1910 Titan Ruins: Hidden Entrance
- Kafka错误2_ERROR Unexpected exception, exiting abnormally异常的一种原因
- android 学习activity生命周期和启动模式
- UILable , Button
- 地图中坐标转换的那些事儿
- VMware中安装VMware Tools
- 项目____form提交数据,action中接收相关(含ID NAME区别及用法)