Hadoop权威指南笔记③(HBase、ZooKeeper、Sqoop)

来源：互联网发布：钢结构网络进度计划表编辑：程序博客网时间：2024/05/22 14:04

第十三章 HBase

HBase实现

HBase：用一个master节点协调管理一个或多个regionserver从属机。HBase主控机负责启动一个全新的安装，把区域分配给注册的regionserver，恢复regionserver的故障。regionserver负责零个或多个区域的管理以及响应客户端的读写请求。regionserver还负责区域的划分并通知HBase maste有了新的子区域，主控机就可以把父区域设为离线，并用子区域替换为父区域

HBase测试驱动

start-hbase.sh 启动一个独立的HBase实例，使用本地文件系统作为持久化存储。
hbase shell 管理HBase实例
stop-hbase.sh 关闭HBase实例
删除表前先禁用，再清除掉

第十四章 ZooKeeper

ZooKeeper实现

ZooKeeper服务有两种运行模式：

①独立模式(standalone)：只有一个ZK服务器，测试环境中用，较为简单
②复制模式(replicated)：运行于一个计算机集群上，ZooKeeper通过复制来实现高可用性。只要集合体中半数以上的机器处于可用状态，就能提供服务：因此集群都配置为奇数台。

ZK服务器状态：

connecting connected closed

配置

服务器在三个端口上进行监听：2181端口被用于客户端连接；2888端口是领导者用于跟随者连接的；3888：端口用于领导者选举阶段的其他服务器连接。ZK服务启动时，读取myid文件用于确定自己的服务器ID，然后通过读取配置文件来确定在哪个端口进行监听，同时确定计算机集群的其他服务器的网络地址
连接到的客户端构造函数中用：zookeeper1：2181；zookeeper2：2181；zookeeper3：2181作为主机字符串

第十五章关于Sqoop

简介：
Sqoop开源工具，它允许用户将数据可以被MR程序使用，也可以被其他类似Hive的工具使用，甚至可以使用Sqoop将数据从数据库转移到HBase，一旦生成最终的分析结果，Sqoop便可以将这些结果导回数据存储器。

数据库导入

Sqoop使用JDBC(Java Database Connectivity)检查将要导入的表。检索出表中所有的列以及列的SQL数据类型。这些SQL类型被映射到Java数据类型，在MR应用中将使用这些对应的java类型来保存字段的值，Sqoop的代码生成器使用这些信息来创建对应表的类，用于保存从表中抽取的记录。

Sqoop与Hive

使用类似于Hive的系统来处理关系操作有利于加快分析任务的开发，特别是对于来自关系数据源的数据，使用Hive是非常有帮助的，Sqoop和Hive共同构成了一个强大的服务于分析任务的工具链。
Sqoop能够根据一个关系数据源中的表来生成一个Hive表。
从数据库将数据导入到Hive，可以将上述的三个步骤(将数据导入HDFS，创建Hive表，将HDFS中的数据导入Hive)，缩短为一个步骤，导入时，Sqoop可以生成Hive表的定义，然后直接将数据导入Hive表。

阅读全文

0 0