大数据-九

来源：互联网发布：java 文本聚类编辑：程序博客网时间：2024/05/22 05:25

HDFS的高可用性

虽然通过在多个文件系统中备份namenode，但是namenode的冷启动是需要30分钟的，所以hadoop2.x针对此问题增加了HA的支持，在这一实现中，配置了一对活动-备用的namenode，一旦活动的namenode失效，备用的namenode将会启动接管他的任务；并开始于服务来自客户端的请求；不会有任何明显的中断；namenode也有了以下的修改；

namenode之间需要通过该高可用性的共享存储来实现编辑日志的共享；（实现中有依靠NFS过滤器辅助实现，后期有了Zookeeper中的bookeeper）；

datanode需要同时向两个namenode发送数据块处理报告，因为数据块的映射信息存在namenode的内存中，而非磁盘；

故障切换与规避

一个称为故障转移控制器（failover_controller）的系统中有一个新实体管理者将活动的namenode转移为备用的namenode的过程；故障转移控制器是可插拔的；但其最初的实现是基于zookeeper的并由此来确保有且仅有一个活动的namenode；

每一个namenode运行着一个轻量级的故障转移控制器，进行心跳检测，检测namenode是否失效；

安装配置hadoop

首先安装jdk，安个1.8最好，这里是Linux平台；

然后在/etc/profile/文件下配置全局环境变量；解压hadoop的文件包；将hadoop的bin，sbin路径导入path路径；

xml配置：

core-site.xml文件用于配置通用属性；hdfs-site.xml文件用于配置HDFS属性；

mapred-site.xml文件则用于配置MapReduce属性。这些文件都放在/etc/hadoop/下；还有个额外的配置yarn-siite.xml；

hadoop有三种运行模式，分别是独立（本地）模式，伪分布式，全分布式；

安装完毕后要格式化；

命令行接口：

hadoop fs -help获得详细文档；

%hadoop fs -copyfromLocal input/docs/xxx.txt hdfs://localhost/usr/tom/xxx.txt

执行的fs命令，-copyFormLocal参数，复制到HDFS实例中；指定的hdfs路径已在core-site.xml中指定；

阅读全文

0 0