HDFS备注

来源:互联网 发布:optical flow算法介绍 编辑:程序博客网 时间:2024/06/03 12:28

1.NN里面主要有两个文件,第一个文件是fsmage里面主要存储映射关系元数据。
例如:
File.txt:
Blk A:
DN1,DN5,DN6
Blk B :
DN7,DN1,DN2
Blk C :
DN5,DN8,DN9
可以看到一个文件分为多个block,每一个block3个DN存储。
第二个文件是edit主要存储操作日志。
2.当NN停止之前,NN什么都不处理,当NN重新启动的时候,DN重新汇报数据信息到NN,因为block id会发生变化(当份数不够约定份数的时候,DN会自己添加),这个时候会重新加载fsmage,edit文件。
3.当DN挂掉以后,会把block转移到其他DN,如果我们修好DN,我们想重新启用,我们需要从NN中黑名单删掉DN的hosthome然后重启DN。
4.当文件数量不够约定文件数量但是文件数量已经达到3个文件的时候,HDFS会在3周后进行检测,重新进行补足。
5.我们使用SNN对NN进行备份的时候,会失去一些数据。
6.hdfs的使用场景
适合:
超大文件
流式访问(一次写入,多次读取)
商用软件
不适合:
低延时的数据访问
大量小文件
多用户写入,任意修改。
7.注意我们可以更改心跳时间和lost判定时间做很多事情。
8.数据倾斜:
一台DN存储大量数据其他的存储的数据量比较小,叫做数据倾斜。
我们可以敲命令
sbin - start - balancer.sh
我们打开平衡命令,进行平衡,如果还是无法改变数据倾斜。
我们可以使用fsck来进行处理。
9.为了防止NN挂掉使用SNN会出现数据丢失,我们可以使用stand by NN进行备份,zookeeper拥有分布式锁,能保证只有active NN一台NN在运行。
DN向两个NN汇报信息。

0 0
原创粉丝点击