hdfs

来源:互联网 发布:java ee下载安装 编辑:程序博客网 时间:2024/05/29 19:27

hdfs特性,高容错;可扩展性和可配置性强;跨平台;shell命令接口;web界面;文件权限和授权;机架感知功能(可以在调度任务和分配储存空间时系统会考虑节点的物理位置来是实现搞笑访问和计算);安全模式;Rebalancer(当DataNode之间数据不均衡的是后,可以平衡集群上的数据负载,实现数据的负载均衡;升级和回滚;

通信协议

所有通信协议都是在TCP/IP协议之上的,一旦客户端和明确配置上了端口的NameNode建立了连接后,他和NameNode的协议便是客户端协议(Client Protocal),datanode和namenode之间的则是数据节点协议(DataNode Protocal)

Replication

确定数据块冗余个数;

安全模式,检查数据块完整性,在这里面文件都是只读模式,检查副本率;

负载均衡

hdfs在进入修改添加删除块的时候namenode记录和分配数据块时都会考虑很多,比如负载均衡;针对负载均衡有一个Rebalancing Server来进行再次负载均衡,该程序是一个独立的进程,从namenode获取datanode的各种情况,然后进行数据移动,但是这个移动和再次负载均衡是针对单一的机架的,因为这个程序原则是不改变每个机架所具备的block数量,所以对于不同的机架有着不同的配置,而每个机架的数据块一定时,无法均衡,这时候只能手动改变来均衡配置或者数据块;

心跳机制

来实现高安全高可靠性,心跳机制是按照一定平路在运行;

hadoop集群是master/slave模式,master包括namenode和resource manager,salve包括datanode和nodeManager,

两者都是由心跳机制来完成通信的,一次来判断数据完整性和执行操作等;

冗余一般默认是三个,不同节点,不同机架;

元数据包括命名空间,访问控制信息,文件和block的映射信息,block的位置信息等;

Client从namenode通信只获得元数据,然后直接和datanode进行操作