Hbase-知识点总结

来源：互联网发布：淘宝联盟用红包佣金编辑：程序博客网时间：2024/06/06 00:39

Linux命令汇总：
：/XXX ---- 定位寻找XXX

Hbase数据库（hadoop database）参考网址：
HBase以表的形式存储数据。表有行和列组成。行由行键(Row Key)来标识，列划分为若干个列族(row family).
Hbase表结构
HBase中的表一般有这样的特点：
1 大：一个表可以有上亿行，上百万列
2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。
3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。
Hbase是基于HDFS和Zookeeper的：
Hbase是bigtable的开源山寨版本。是建立的HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。
Hbase是基于hadoop(hdfs)的分布式数据库系统，Hbase也有主（HMaster）、从节点（HRegionServer），
主从节点之间的状态协调是通过Zookeeper实现的，而且在查询数据时也是通过Zookeeper先找到数据的寻址的起始点，才能找到数据在哪
Hbase理论基础：http://blog.csdn.net/zh521zh/article/details/51918664
http://blog.csdn.net/wulantian/article/details/41011297 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~！！！！！！！！！！！！
物理存储
1 Table中的所有行都按照row key的字典序排列。
　　 2 Table 在行的方向上分割为多个 Hregion。
（一个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分成两个新的Hregion。）
3 region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，
Hregion就会等分成两个新的Hregion。当table中的行不断增多，就会有越来越多的Hregion。
4 HRegion是Hbase中【分布式存储】和【负载均衡】的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。
但一个HRegion是不会拆分到多个server上的。
5 HRegion虽然是【分布式存储的】最小单元，但并不是存储的最小单元。事实上，HRegion由一个或者多个Store组成，
每个store保存一个columns family。每个Strore又由一个memStore和0至多个StoreFile组成。如图：StoreFile以HFile格式保存在HDFS上。

Hbase为什么访问数据比较快？
因为在建表时可以控制把热数据加载到内存里缓存起来，这样就比直接去hdfs里面读取快~~~
（create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}）

hbase集群搭建
先部署一个zookeeper集群(hbase自身是带有zookeeper集群的，但是没必要用它，而是配置让hbase用外部我们自己的zookeeper集群)
（1）上传hbase安装包
（2）解压
（3）配置hbase集群，要修改3个文件
注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下

（3.1）修改hbase-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_79
//告诉hbase使用外部的zk
export HBASE_MANAGES_ZK=false

（3.2）修改 hbase-site.xml
<configuration>

<property>
<name>hbase.rootdir</name>
<value>hdfs://ns1/hbase</value>
</property>

<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>

<property>
<name>hbase.zookeeper.quorum</name>
<value>hadoop-01-server:2181,hadoop-02-server:2181,hadoop-03-server:2181</value>
</property>
</configuration>

（3.3）修改 regionservers
hadoop-01-server
hadoop-02-server
hadoop-03-server

(3.4) 拷贝hbase到其他节点
scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-02-server:/home/hadoop
scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-03-server:/home/hadoop
(4) 将配置好的HBase拷贝到每一个节点并同步时间。

(5) 启动所有的hbase进程
首先启动zk集群
./zkServer.sh start
启动hbase集群
start-dfs.sh
启动hbase，在主节点上运行：
start-hbase.sh
(6) 通过浏览器访问hbase管理页面
hadoop-01-server:60010
(7) 为保证集群的可靠性，要启动多个HMaster,实现高可用
hbase-daemon.sh start master

Hbase的使用：
执行./hbase shell ，进入hbase命令行
list 显示hbase中的表

创建user表，包含info、data两个列族
create 'user', 'info1', 'data1'
create 'user', {NAME => 'info', VERSIONS => '3'}

向user表中插入信息，row key为rk0001，列族info中添加name列标示符，值为zhangsan
put 'user', 'rk0001', 'info:name', 'zhangsan'

向user表中插入信息，row key为rk0001，列族info中添加gender列标示符，值为female
put 'user', 'rk0001', 'info:gender', 'female'

向user表中插入信息，row key为rk0001，列族info中添加age列标示符，值为20
put 'user', 'rk0001', 'info:age', 20

向user表中插入信息，row key为rk0001，列族data中添加pic列标示符，值为picture
put 'user', 'rk0001', 'data:pic', 'picture'

获取user表中row key为rk0001的所有信息
get 'user', 'rk0001'

获取user表中row key为rk0001，info列族的所有信息
get 'user', 'rk0001', 'info'

获取user表中row key为rk0001，info列族的name、age列标示符的信息
get 'user', 'rk0001', 'info:name', 'info:age'

获取user表中row key为rk0001，info、data列族的信息
get 'user', 'rk0001', 'info', 'data'
get 'user', 'rk0001', {COLUMN => ['info', 'data']}

get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']}

获取user表中row key为rk0001，列族为info，版本号最新5个的信息
get 'user', 'rk0001', {COLUMN => 'info', VERSIONS => 2}
get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5}
get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5, TIMERANGE => [1392368783980, 1392380169184]}

获取user表中row key为rk0001，cell的值为zhangsan的信息
get 'people', 'rk0001', {FILTER => "ValueFilter(=, 'binary:图片')"}

获取user表中row key为rk0001，列标示符中含有a的信息
get 'people', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}

put 'user', 'rk0002', 'info:name', 'fanbingbing'
put 'user', 'rk0002', 'info:gender', 'female'
put 'user', 'rk0002', 'info:nationality', '中国'
get 'user', 'rk0002', {FILTER => "ValueFilter(=, 'binary:中国')"}

查询user表中的所有信息
scan 'user'

查询user表中列族为info的信息
scan 'user', {COLUMNS => 'info'}
scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5}
scan 'persion', {COLUMNS => 'info', RAW => true, VERSIONS => 3}
查询user表中列族为info和data的信息
scan 'user', {COLUMNS => ['info', 'data']}
scan 'user', {COLUMNS => ['info:name', 'data:pic']}

查询user表中列族为info、列标示符为name的信息
scan 'user', {COLUMNS => 'info:name'}

查询user表中列族为info、列标示符为name的信息,并且版本最新的5个
scan 'user', {COLUMNS => 'info:name', VERSIONS => 5}

查询user表中列族为info和data且列标示符中含有a字符的信息
scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}

查询user表中列族为info，rk范围是[rk0001, rk0003)的数据
scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}

查询user表中row key以rk字符开头的
scan 'user',{FILTER=>"PrefixFilter('rk')"}

查询user表中指定范围的数据
scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}

删除数据
删除user表row key为rk0001，列标示符为info:name的数据
delete 'people', 'rk0001', 'info:name'
删除user表row key为rk0001，列标示符为info:name，timestamp为1392383705316的数据
delete 'user', 'rk0001', 'info:name', 1392383705316

清空user表中的数据
truncate 'people'

修改表结构
首先停用user表（新版本不用）
disable 'user'

添加两个列族f1和f2
alter 'people', NAME => 'f1'
alter 'user', NAME => 'f2'
启用表
enable 'user'

###disable 'user'(新版本不用)
删除一个列族：
alter 'user', NAME => 'f1', METHOD => 'delete' 或 alter 'user', 'delete' => 'f1'

添加列族f1同时删除列族f2
alter 'user', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'}

将user表的f1列族版本号改为5
alter 'people', NAME => 'info', VERSIONS => 5
启用表
enable 'user'

删除表
disable 'user'
drop 'user'

get 'person', 'rk0001', {FILTER => "ValueFilter(=, 'binary:中国')"}
get 'person', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}
scan 'person', {COLUMNS => 'info:name'}
scan 'person', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}
scan 'person', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}

scan 'person', {COLUMNS => 'info', STARTROW => '20140201', ENDROW => '20140301'}
scan 'person', {COLUMNS => 'info:name', TIMERANGE => [1395978233636, 1395987769587]}
delete 'person', 'rk0001', 'info:name'

alter 'person', NAME => 'ffff'
alter 'person', NAME => 'info', VERSIONS => 10

get 'user', 'rk0002', {COLUMN => ['info:name', 'data:pic']}

0 0