Hbase快速单机部署和伪分布式部署,完全分布式部署

来源:互联网 发布:mysql安装密码 编辑:程序博客网 时间:2024/05/22 10:33

参考:http://hbase.apache.org/book.html#getting_started


hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/stable/          

文件解压到  /usr/tools/hbase 下。

解压文件:tar -zxvf  hbase1.2xxxx.tar.gz

mv hbase.1.2.xxxx   hbase


1,单机模式配置

编辑hbase/conf目录下 hbase.env.sh 设置java环境

# The java implementation to use.  Java 1.7+ required.
export JAVA_HOME=/usr/java/jdk1.7.0_79/


编辑hbase-site.xml     hbase保存数据的目录 ,目录可以不存在会自动创建

  <property>    <name>hbase.rootdir</name>    <value>/home/hbase</value>  </property>


然后启动 hbase

[root@master bin]# ./start-hbase.sh starting master, logging to /usr/tools/hbase/bin/../logs/hbase-root-master-master.out

验证是否启动成功,使用jps查看下是否有hbase进程

[root@master bin]# jps3190 Jps2873 HMaster


2,伪分布式模式配置

    首先hadoop的已安装,并且确定hdfs也已经启动 ,ssh之间必须打通无密码可以登录

     hbase-env.sh配置环境  jdk,zookeeeper

# The java implementation to use.  Java 1.7+ required.export JAVA_HOME=/usr/java/jdk1.7.0_79/
# Tell HBase whether it should manage it'sown instance of Zookeeper or not.export HBASE_MANAGES_ZK=true

一个分布式运行的Hbase依赖一个zookeeper集群。所有的节点和客户端都必须能够访问zookeeper。默认的情况下Hbase会管理一个zookeep集群。这个集群会随着Hbase的启动而启动。当然,你也可以自己管理一个zookeeper集群,但需要配置Hbase。你需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 来切换。这个值默认是true的,作用是让Hbase启动的时候同时也启动zookeeper.

让Hbase使用一个现有的不被Hbase托管的Zookeep集群,需要设置 conf/hbase-env.sh文件中的HBASE_MANAGES_ZK 属性为 false

<configuration>        <property>        <name>hbase.rootdir</name>        <value>hdfs://node1:49002/hbase</value>        <description>The directory shared byRegionServers.        </description>      </property>      <property>        <name>hbase.cluster.distributed</name>        <value>true</value>        <description>The mode the clusterwill be in. Possible values are          false: standalone and pseudo-distributedsetups with managed Zookeeper          true: fully-distributed with unmanagedZookeeper Quorum (see hbase-env.sh)        </description>      </property>             <property>          <name>hbase.zookeeper.property.clientPort</name>          <value>2222</value>          <description>Property fromZooKeeper's config zoo.cfg.          The port at which the clients willconnect.          </description>        </property>        <property>          <name>hbase.zookeeper.quorum</name>          <value>node1,node2,node3</value>          <description>Comma separated listof servers in the ZooKeeper Quorum.          For example,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".          By default this is set to localhost forlocal and pseudo-distributed modes          of operation. For a fully-distributedsetup, this should be set to a full          list of ZooKeeper quorum servers. IfHBASE_MANAGES_ZK is set in hbase-env.sh          this is the list of servers which we willstart/stop ZooKeeper on.          </description>        </property>        <property>          <name>hbase.zookeeper.property.dataDir</name>          <value>/home/hadoop/zookeeper</value>          <description>Property fromZooKeeper's config zoo.cfg.          The directory where the snapshot isstored.          </description>        </property>      </configuration>  

要想运行完全分布式模式,加一个属性 hbase.cluster.distributed 设置为 true 然后把 hbase.rootdir 设置为HDFS的NameNode的位置。 例如,你的namenode运行在node1,端口是49002 你期望的目录是 /hbase,使用如下的配置:hdfs://node1:49002/hbase

hbase.rootdir这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的'/hbase'目录,namenode 运行在node1的49002端口。则需要设置为hdfs://node1:49002/hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失。默认: file:///tmp/hbase-${user.name}/hbase

hbase.cluster.distributed :Hbase的运行模式。false是单机模式,true是分布式模式。若为false,Hbase和Zookeeper会运行在同一个JVM里面。

默认: false

在hbase-site.xml配置zookeeper:

当Hbase管理zookeeper的时候,你可以通过修改zoo.cfg来配置zookeeper,

一个更加简单的方法是在 conf/hbase-site.xml里面修改zookeeper的配置。Zookeeer的配置是作为property写在 hbase-site.xml里面的。

对于zookeepr的配置,你至少要在 hbase-site.xml中列出zookeepr的ensemble servers,具体的字段是 hbase.zookeeper.quorum. 该这个字段的默认值是 localhost,这个值对于分布式应用显然是不可以的. (远程连接无法使用)。

 

hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客户端连接的端口。

hbase.zookeeper.quorumZookeeper集群的地址列表,用逗号分割。例如:"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默认是localhost,是给伪分布式用的。要修改才能在完全分布式的情况下使用。如果在hbase-env.sh设置了HBASE_MANAGES_ZK,这些ZooKeeper节点就会和Hbase一起启动。

默认: localhost

运行一个zookeeper也是可以的,但是在生产环境中,你最好部署3,5,7个节点。部署的越多,可靠性就越高,当然只能部署奇数个,偶数个是不可以的。你需要给每个zookeeper 1G左右的内存,如果可能的话,最好有独立的磁盘。 (独立磁盘可以确保zookeeper是高性能的。).如果你的集群负载很重,不要把Zookeeper和RegionServer运行在同一台机器上面。就像DataNodes 和 TaskTrackers一样

hbase.zookeeper.property.dataDirZooKeeper的zoo.conf中的配置。 快照的存储位置

把ZooKeeper保存数据的目录地址改掉。默认值是 /tmp ,这里在重启的时候会被操作系统删掉,可以把它修改到 /home/hadoop/zookeeper (这个路径hadoop用户拥有操作权限)

对于独立的Zookeeper,要指明Zookeeper的host和端口。可以在 hbase-site.xml中设置, 也可以在Hbase的CLASSPATH下面加一个zoo.cfg配置文件。 HBase 会优先加载 zoo.cfg 里面的配置,把hbase-site.xml里面的覆盖掉.

参见 http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations可以查找hbase.zookeeper.property 前缀,找到关于zookeeper的配置。


配置hbase/conf/regionservers

node1

node2

然后复制hbase文件到node1,node2机器上

这里直接用scp  /usr/tools/hbase/ root@node1:/usr/tools


三台机器上都要替换hbase/lib/hadoop-*.jar 

先删除hbase/lib下的jar   rm -rf  hadoop-*.jar

在复制hadoop的下的hadoop*.jar到hbase下。

find /usr/tools/hadoop/share/hadoop -name "hadoop*jar" | xargs -i cp {} /usr/tools/hbase/lib/ 



启动master的hadoop集群

再启动 master的hbase即可。此时整个hbase集群应该启动

master机器:

[root@master bin]# jps9015 Jps7803 HMaster8649 Main7736 HQuorumPeer6167 NodeManager6066 ResourceManager5911 SecondaryNameNode7370 NameNode

node1 机器进程

[root@node1 conf]# jps6082 NodeManager6346 HQuorumPeer5832 SecondaryNameNode6427 HRegionServer5670 DataNode7459 Jps6760 HMaster

node2机器进程

[root@node2 bin]# jps5796 HQuorumPeer5148 DataNode5882 HRegionServer6760 Jps5562 NodeManager5308 SecondaryNameNode


HBase的完全分布集群

1.hbase的机群搭建过程(在原来的master上的hbase伪分布基础上进行搭建)

1.1 集群结构,主节点(master)master,从节点(region server)node1和node2

1.2 修改master上的hbase的几个文件

    (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false

         (2)修改hbase-site.xml文件的hbase.zookeeper.quorum的值为master,node1,node2

         (3)修改regionservers文件(存放的region serverhostname),内容修改为node1node2

1.3 复制master中的hbase文件夹到node1node2        

    

1.4 启动集群

  首先启动hadoop(在masterstart-all.sh),

  然后启动zookeeper集群(分别在三台机器上zkServer.sh  start;可以使用zkServer.sh status查看zk的状态)。

  最后在master上启动hbase集群(start-hbase.sh)。


上面启动成功可以看到hdfs文件系统中会创建hbase的目录路径,也即是hbase-site.xml配置的hbase.rootdir 值

可以打开hdfs的文件系统web控制台查看


data目录是存储表,数据的目录

http://master:50070/explorer.html#/hbase/data




使用shell命令连接hbase,做些简单操作

[root@master bin]# ./hbase shell2017-05-19 04:13:04,512 WARN  [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableHBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 1.2.5, rd7b05f79dee10e0ada614765bb354b93d615a157, Wed Mar  1 00:34:48 CST 2017hbase(main):001:0> 

创建一个名为 table_test 的表,这个表只有一个column family(列簇) 为 cf1。可以列出所有的表来检查创建情况,然后插入些值。 注意表名,行和列需要加引号

hbase(main):003:0> create 'table_test','cf1';hbase(main):004:0* list0 row(s) in 1.4690 secondsTABLE                                                                                                                                                         table_test                                                                                                                                                    1 row(s) in 0.0370 seconds


插入几条数据

第一个行key为row1, 列为 cf1:a, 值是 value1。Hbase中的列是由 column family前缀和列的名字组成的,以冒号间隔

hbase(main):007:0> put 'table_test','rowkey1','cf1:a','avalue'0 row(s) in 0.1220 secondshbase(main):010:0> put 'table_test','rowkey2','cf1:b','bvalue'0 row(s) in 0.0130 secondshbase(main):011:0> put 'table_test','rowkey3','cf1:c','cvalue'0 row(s) in 0.0050 seconds


scan一下表内容

hbase(main):012:0> scan 'table_test'ROW                                      COLUMN+CELL                                                                                                           rowkey1                                 column=cf1:a, timestamp=1495193147094, value=avalue                                                                   rowkey2                                 column=cf1:b, timestamp=1495193193619, value=bvalue                                                                   rowkey3                                 column=cf1:c, timestamp=1495193233490, value=cvalue                                                                  3 row(s) in 0.0240 seconds

get一行内容

hbase(main):013:0> get 'table_test','rowkey1'COLUMN                                   CELL                                                                                                                  cf1:a                                   timestamp=1495193147094, value=avalue                                                                                1 row(s) in 0.0550 seconds



再创建一个多列簇的表 四个列簇  userid,account,info,address

hbase(main):022:0> create 'user','userid','account','info','address'
0 row(s) in 2.4140 seconds


=> Hbase::Table - user

插入数据测试

hbase(main):022:0> create 'user','userid','account','info','address'


=> Hbase::Table - user

hbase(main):023:0> put 'user','zhangsan','userid:id','001'hbase(main):024:0> put 'user','zhangsan','account:name','zhangsan'hbase(main):025:0> put 'user','zhangsan','account:password','123456'hbase(main):026:0> put 'user','zhangsan','account:idcard','42012319861234561230'hbase(main):027:0> put 'user','zhangsan','info:age','29'hbase(main):028:0> put 'user','zhangsan','info:sex','男'hbase(main):002:0> put 'user','zhangsan','address:province','guangdong'hbase(main):003:0> put 'user','zhangsan','address:city','shengzhen'
hbase(main):023:0> put 'user','lisi','userid:id','002'hbase(main):024:0> put 'user','lisi','account:name','lisi'hbase(main):025:0> put 'user','lisi','account:password','123451231236'hbase(main):026:0> put 'user','lisi','account:idcard','42963319861234561230'hbase(main):027:0> put 'user','lisi','info:age','21'hbase(main):028:0> put 'user','lisi','info:sex','女'hbase(main):002:0> put 'user','lisi','address:province','shanghai'

全表扫描下:

hbase(main):016:0> scan 'user'ROW                                      COLUMN+CELL                                                                                                           lisi                                    column=account:idcard, timestamp=1495211309656, value=42963319861234561230                                            lisi                                    column=account:name, timestamp=1495211285800, value=lisi                                                              lisi                                    column=account:password, timestamp=1495211301427, value=123451231236                                                  lisi                                    column=address:province, timestamp=1495211384023, value=shanghai                                                      lisi                                    column=info:age, timestamp=1495211316099, value=21                                                                    lisi                                    column=info:sex, timestamp=1495211346138, value=\xE5\xA5\xB3                                                          lisi                                    column=userid:id, timestamp=1495211274783, value=002                                                                  zhangsan                                column=account:idcard, timestamp=1495210724532, value=42012319861234561230                                            zhangsan                                column=account:name, timestamp=1495210666721, value=zhangsan                                                          zhangsan                                column=account:password, timestamp=1495210687419, value=123456                                                        zhangsan                                column=address:city, timestamp=1495211133796, value=shengzhen                                                         zhangsan                                column=address:province, timestamp=1495211116014, value=guangdong                                                     zhangsan                                column=info:age, timestamp=1495210767561, value=29                                                                    zhangsan                                column=info:sex, timestamp=1495210795819, value=\xE7\x94\xB7                                                          zhangsan                                column=userid:id, timestamp=1495210638142, value=001                                                                 2 row(s) in 0.1290 seconds



通过rowkey获取数据

hbase(main):017:0> get 'user','zhangsan'COLUMN                                   CELL                                                                                                                  account:idcard                          timestamp=1495210724532, value=42012319861234561230                                                                   account:name                            timestamp=1495210666721, value=zhangsan                                                                               account:password                        timestamp=1495210687419, value=123456                                                                                 address:city                            timestamp=1495211133796, value=shengzhen                                                                              address:province                        timestamp=1495211116014, value=guangdong                                                                              info:age                                timestamp=1495210767561, value=29                                                                                     info:sex                                timestamp=1495210795819, value=\xE7\x94\xB7                                                                           userid:id                               timestamp=1495210638142, value=001                                                                                   8 row(s) in 0.1170 seconds

通过rowkey ,column family(列簇)获取数据

hbase(main):018:0> get 'user','zhangsan','address'COLUMN                                   CELL                                                                                                                  address:city                            timestamp=1495211133796, value=shengzhen                                                                              address:province                        timestamp=1495211116014, value=guangdong                                                                             2 row(s) in 0.0720 seconds

通过rowkey,column family,column获取数据

hbase(main):019:0> get 'user','zhangsan','address:province'COLUMN                                   CELL                                                                                                                  address:province                        timestamp=1495211116014, value=guangdong                                                                             1 row(s) in 0.0250 seconds


更新记录可以直接put

hbase(main):020:0> put 'user','zhangsan','info:age' ,'100'0 row(s) in 0.0070 seconds

rowkey为zhagnsan,列簇 info 中的列age 原来是29

get验证一下 已经变味100,

hbase(main):023:0> get 'user','zhangsan','info:age'COLUMN                                   CELL                                                                                                                  info:age                                timestamp=1495211790160, value=100                                                                                   1 row(s) in 0.0140 seconds


删除表字段

hbase(main):032:0> delete 'user','zhangsan','address:city'0 row(s) in 0.0100 seconds
验证一下, address列簇中的city列已经删除了hbase(main):033:0> get 'user','zhangsan'COLUMN                                   CELL                                                                                                                  account:idcard                          timestamp=1495210724532, value=42012319861234561230                                                                   account:name                            timestamp=1495210666721, value=zhangsan                                                                               account:password                        timestamp=1495210687419, value=123456                                                                                 address:province                        timestamp=1495211116014, value=guangdong                                                                              info:age                                timestamp=1495211790160, value=100                                                                                    info:sex                                timestamp=1495210795819, value=\xE7\x94\xB7                                                                           userid:id                               timestamp=1495210638142, value=001                                                                                   7 row(s) in 0.0310 seconds

删除整行:也即是通过rowkey删除

hbase(main):035:0> deleteall 'user','lisi'0 row(s) in 0.0470 seconds
验证一下,rowkey为lisi 的全部删除了hbase(main):036:0> scan 'user'ROW                                      COLUMN+CELL                                                                                                           zhangsan                                column=account:idcard, timestamp=1495210724532, value=42012319861234561230                                            zhangsan                                column=account:name, timestamp=1495210666721, value=zhangsan                                                          zhangsan                                column=account:password, timestamp=1495210687419, value=123456                                                        zhangsan                                column=address:province, timestamp=1495211116014, value=guangdong                                                     zhangsan                                column=info:age, timestamp=1495211790160, value=100                                                                   zhangsan                                column=info:sex, timestamp=1495210795819, value=\xE7\x94\xB7                                                          zhangsan                                column=userid:id, timestamp=1495210638142, value=001                                                                 1 row(s) in 0.0360 seconds


统计行数 结果只有一行, 因为数据库就剩下rowkey为张三了 

hbase(main):037:0> count 'user'1 row(s) in 0.1800 seconds=> 1


清空表 和mysql 数据库命令类似

hbase(main):038:0> truncate 'user'


退出shell 

hbase(main):014:0> exit[root@master bin]# 


停止hbase

[root@master bin]# ./stop-hbase.sh stopping hbase...................[root@master bin]# 











原创粉丝点击