Hbase-知识点总结

来源:互联网 发布:淘宝联盟用红包佣金 编辑:程序博客网 时间:2024/06/06 00:39
Linux命令汇总:
:/XXX   ---- 定位寻找XXX  


Hbase数据库(hadoop database)参考网址:
HBase以表的形式存储数据。表有行和列组成。行由行键(Row Key)来标识,列划分为若干个列族(row family).
Hbase表结构
HBase中的表一般有这样的特点:
1 大:一个表可以有上亿行,上百万列
2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。
3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。
Hbase是基于HDFS和Zookeeper的:
Hbase是bigtable的开源山寨版本。是建立的HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。
Hbase是基于hadoop(hdfs)的分布式数据库系统,Hbase也有主(HMaster)、从节点(HRegionServer),
主从节点之间的状态协调是通过Zookeeper实现的,而且在查询数据时也是通过Zookeeper先找到数据的寻址的起始点,才能找到数据在哪
Hbase理论基础:http://blog.csdn.net/zh521zh/article/details/51918664 
  http://blog.csdn.net/wulantian/article/details/41011297   ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~!!!!!!!!!!!!
物理存储
1 Table中的所有行都按照row key的字典序排列。
   2 Table 在  行的方向上   分割为多个 Hregion。
(一个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会 等分成两个新的Hregion。)
3 region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,
Hregion就会等分成两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion。
4 HRegion是Hbase中  【分布式存储】和【负载均衡】的    最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。
          但一个HRegion是不会拆分到多个server上的。
        5 HRegion虽然是【分布式存储的】最小单元,但并不是存储的最小单元。事实上,HRegion由一个或者多个Store组成,
          每个store保存一个columns family。每个Strore又由一个memStore和0至多个StoreFile组成。如图:StoreFile以HFile格式保存在HDFS上。

Hbase为什么访问数据比较快?
因为在建表时可以控制把热数据加载到内存里缓存起来,这样就比直接去hdfs里面读取快~~~
(create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true})

hbase集群搭建
先部署一个zookeeper集群(hbase自身是带有zookeeper集群的,但是没必要用它,而是配置让hbase用外部我们自己的zookeeper集群)
(1)上传hbase安装包
(2)解压
(3)配置hbase集群,要修改3个文件
注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下

(3.1)修改hbase-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_79
//告诉hbase使用外部的zk
export HBASE_MANAGES_ZK=false

(3.2)修改 hbase-site.xml
<configuration>
<!-- 指定hbase在HDFS上存储的路径 -->
       <property>
               <name>hbase.rootdir</name>
               <value>hdfs://ns1/hbase</value>
       </property>
<!-- 指定hbase是分布式的 -->
       <property>
               <name>hbase.cluster.distributed</name>
               <value>true</value>
       </property>
<!-- 指定zk的地址,多个用“,”分割 -->
       <property>
               <name>hbase.zookeeper.quorum</name>
               <value>hadoop-01-server:2181,hadoop-02-server:2181,hadoop-03-server:2181</value>
       </property>
</configuration>


(3.3)修改 regionservers
hadoop-01-server
hadoop-02-server
hadoop-03-server

(3.4) 拷贝hbase到其他节点
scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-02-server:/home/hadoop
scp -r /home/hadoop/hbase-0.96.2-hadoop2/ hadoop-03-server:/home/hadoop
(4) 将配置好的HBase拷贝到每一个节点并同步时间。


(5) 启动所有的hbase进程
首先启动zk集群
./zkServer.sh start
启动hbase集群
start-dfs.sh
启动hbase,在主节点上运行:
start-hbase.sh
(6) 通过浏览器访问hbase管理页面
hadoop-01-server:60010
(7) 为保证集群的可靠性,要启动多个HMaster,实现高可用
hbase-daemon.sh start master




Hbase的使用:
执行./hbase shell ,进入hbase命令行
list 显示hbase中的表


创建user表,包含info、data两个列族
create 'user', 'info1', 'data1'
create 'user', {NAME => 'info', VERSIONS => '3'}


向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsan
put 'user', 'rk0001', 'info:name', 'zhangsan'


向user表中插入信息,row key为rk0001,列族info中添加gender列标示符,值为female
put 'user', 'rk0001', 'info:gender', 'female'


向user表中插入信息,row key为rk0001,列族info中添加age列标示符,值为20
put 'user', 'rk0001', 'info:age', 20


向user表中插入信息,row key为rk0001,列族data中添加pic列标示符,值为picture
put 'user', 'rk0001', 'data:pic', 'picture'


获取user表中row key为rk0001的所有信息
get 'user', 'rk0001'


获取user表中row key为rk0001,info列族的所有信息
get 'user', 'rk0001', 'info'


获取user表中row key为rk0001,info列族的name、age列标示符的信息
get 'user', 'rk0001', 'info:name', 'info:age'


获取user表中row key为rk0001,info、data列族的信息
get 'user', 'rk0001', 'info', 'data'
get 'user', 'rk0001', {COLUMN => ['info', 'data']}


get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']}


获取user表中row key为rk0001,列族为info,版本号最新5个的信息
get 'user', 'rk0001', {COLUMN => 'info', VERSIONS => 2}
get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5}
get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5, TIMERANGE => [1392368783980, 1392380169184]}


获取user表中row key为rk0001,cell的值为zhangsan的信息
get 'people', 'rk0001', {FILTER => "ValueFilter(=, 'binary:图片')"}


获取user表中row key为rk0001,列标示符中含有a的信息
get 'people', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}


put 'user', 'rk0002', 'info:name', 'fanbingbing'
put 'user', 'rk0002', 'info:gender', 'female'
put 'user', 'rk0002', 'info:nationality', '中国'
get 'user', 'rk0002', {FILTER => "ValueFilter(=, 'binary:中国')"}




查询user表中的所有信息
scan 'user'


查询user表中列族为info的信息
scan 'user', {COLUMNS => 'info'}
scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5}
scan 'persion', {COLUMNS => 'info', RAW => true, VERSIONS => 3}
查询user表中列族为info和data的信息
scan 'user', {COLUMNS => ['info', 'data']}
scan 'user', {COLUMNS => ['info:name', 'data:pic']}




查询user表中列族为info、列标示符为name的信息
scan 'user', {COLUMNS => 'info:name'}


查询user表中列族为info、列标示符为name的信息,并且版本最新的5个
scan 'user', {COLUMNS => 'info:name', VERSIONS => 5}


查询user表中列族为info和data且列标示符中含有a字符的信息
scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}


查询user表中列族为info,rk范围是[rk0001, rk0003)的数据
scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}


查询user表中row key以rk字符开头的
scan 'user',{FILTER=>"PrefixFilter('rk')"}


查询user表中指定范围的数据
scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}


删除数据
删除user表row key为rk0001,列标示符为info:name的数据
delete 'people', 'rk0001', 'info:name'
删除user表row key为rk0001,列标示符为info:name,timestamp为1392383705316的数据
delete 'user', 'rk0001', 'info:name', 1392383705316




清空user表中的数据
truncate 'people'




修改表结构
首先停用user表(新版本不用)
disable 'user'


添加两个列族f1和f2
alter 'people', NAME => 'f1'
alter 'user', NAME => 'f2'
启用表
enable 'user'




###disable 'user'(新版本不用)
删除一个列族:
alter 'user', NAME => 'f1', METHOD => 'delete' 或 alter 'user', 'delete' => 'f1'


添加列族f1同时删除列族f2
alter 'user', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'}


将user表的f1列族版本号改为5
alter 'people', NAME => 'info', VERSIONS => 5
启用表
enable 'user'




删除表
disable 'user'
drop 'user'




get 'person', 'rk0001', {FILTER => "ValueFilter(=, 'binary:中国')"}
get 'person', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}
scan 'person', {COLUMNS => 'info:name'}
scan 'person', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}
scan 'person', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}


scan 'person', {COLUMNS => 'info', STARTROW => '20140201', ENDROW => '20140301'}
scan 'person', {COLUMNS => 'info:name', TIMERANGE => [1395978233636, 1395987769587]}
delete 'person', 'rk0001', 'info:name'


alter 'person', NAME => 'ffff'
alter 'person', NAME => 'info', VERSIONS => 10




get 'user', 'rk0002', {COLUMN => ['info:name', 'data:pic']}



0 0
原创粉丝点击