大数据-九

来源:互联网 发布:java 文本聚类 编辑:程序博客网 时间:2024/05/22 05:25

HDFS的高可用性

虽然通过在多个文件系统中备份namenode,但是namenode的冷启动是需要30分钟的,所以hadoop2.x针对此问题增加了HA的支持,在这一实现中,配置了一对活动-备用的namenode,一旦活动的namenode失效,备用的namenode将会启动接管他的任务;并开始于服务来自客户端的请求;不会有任何明显的中断;namenode也有了以下的修改;

namenode之间需要通过该高可用性的共享存储来实现编辑日志的共享;(实现中有依靠NFS过滤器辅助实现,后期有了Zookeeper中的bookeeper);

datanode需要同时向两个namenode发送数据块处理报告,因为数据块的映射信息存在namenode的内存中,而非磁盘;

故障切换与规避

一个称为故障转移控制器(failover_controller)的系统中有一个新实体管理者将活动的namenode转移为备用的namenode的过程;故障转移控制器是可插拔的;但其最初的实现是基于zookeeper的并由此来确保有且仅有一个活动的namenode;

每一个namenode运行着一个轻量级的故障转移控制器,进行心跳检测,检测namenode是否失效;

安装配置hadoop

首先安装jdk,安个1.8最好,这里是Linux平台;

然后在/etc/profile/文件下配置全局环境变量;解压hadoop的文件包;将hadoop的bin,sbin路径导入path路径;

xml配置:

core-site.xml文件用于配置通用属性;hdfs-site.xml文件用于配置HDFS属性;

mapred-site.xml文件则用于配置MapReduce属性。这些文件都放在/etc/hadoop/下;还有个额外的配置yarn-siite.xml;

hadoop有三种运行模式,分别是独立(本地)模式,伪分布式,全分布式;

安装完毕后要格式化;

命令行接口:

hadoop fs -help获得详细文档;

%hadoop fs -copyfromLocal input/docs/xxx.txt hdfs://localhost/usr/tom/xxx.txt

执行的fs命令,-copyFormLocal参数,复制到HDFS实例中;指定的hdfs路径已在core-site.xml中指定;

原创粉丝点击