Hadoop权威指南笔记③(HBase、ZooKeeper、Sqoop)

来源:互联网 发布:钢结构网络进度计划表 编辑:程序博客网 时间:2024/05/22 14:04

第十三章 HBase

HBase实现

HBase:用一个master节点协调管理一个或多个regionserver从属机。HBase主控机负责启动一个全新的安装,把区域分配给注册的regionserver,恢复regionserver的故障。regionserver负责零个或多个区域的管理以及响应客户端的读写请求。regionserver还负责区域的划分并通知HBase maste有了新的子区域,主控机就可以把父区域设为离线,并用子区域替换为父区域

HBase测试驱动

start-hbase.sh 启动一个独立的HBase实例,使用本地文件系统作为持久化存储。
hbase shell 管理HBase实例
stop-hbase.sh 关闭HBase实例
删除表前先禁用,再清除掉

第十四章 ZooKeeper

ZooKeeper实现

ZooKeeper服务有两种运行模式:

①独立模式(standalone):只有一个ZK服务器,测试环境中用,较为简单
②复制模式(replicated):运行于一个计算机集群上,ZooKeeper通过复制来实现高可用性。只要集合体中半数以上的机器处于可用状态,就能提供服务:因此集群都配置为奇数台。

ZK服务器状态:

connecting connected closed

配置

服务器在三个端口上进行监听:2181端口被用于客户端连接;2888端口是领导者用于跟随者连接的;3888:端口用于领导者选举阶段的其他服务器连接。ZK服务启动时,读取myid文件用于确定自己的服务器ID,然后通过读取配置文件来确定在哪个端口进行监听,同时确定计算机集群的其他服务器的网络地址
连接到的客户端构造函数中用:zookeeper1:2181;zookeeper2:2181;zookeeper3:2181作为主机字符串

第十五章 关于Sqoop

简介:
Sqoop开源工具,它允许用户将数据可以被MR程序使用,也可以被其他类似Hive的工具使用,甚至可以使用Sqoop将数据从数据库转移到HBase,一旦生成最终的分析结果,Sqoop便可以将这些结果导回数据存储器。

数据库导入

Sqoop使用JDBC(Java Database Connectivity)检查将要导入的表。检索出表中所有的列以及列的SQL数据类型。这些SQL类型被映射到Java数据类型,在MR应用中将使用这些对应的java类型来保存字段的值,Sqoop的代码生成器使用这些信息来创建对应表的类,用于保存从表中抽取的记录。

Sqoop与Hive

使用类似于Hive的系统来处理关系操作有利于加快分析任务的开发,特别是对于来自关系数据源的数据,使用Hive是非常有帮助的,Sqoop和Hive共同构成了一个强大的服务于分析任务的工具链。
Sqoop能够根据一个关系数据源中的表来生成一个Hive表。
从数据库将数据导入到Hive,可以将上述的三个步骤(将数据导入HDFS,创建Hive表,将HDFS中的数据导入Hive),缩短为一个步骤,导入时,Sqoop可以生成Hive表的定义,然后直接将数据导入Hive表。

原创粉丝点击