spark hbase

来源:互联网 发布:iphone看txt软件 编辑:程序博客网 时间:2024/05/17 20:50

HBase 的 CRUD 操作

新版 API 中加入了 Connection,HAdmin成了Admin,HTable成了Table,而Admin和Table只能通过Connection获得。Connection的创建是个重量级的操作,由于Connection是线程安全的,所以推荐使用单例,其工厂方法需要一个HBaseConfiguration。

val conf = HBaseConfiguration.create()conf.set("hbase.zookeeper.property.clientPort", "2181")conf.set("hbase.zookeeper.quorum", "master")//Connection 的创建是个重量级的工作,线程安全,是操作hbase的入口val conn = ConnectionFactory.createConnection(conf)

创建表

使用Admin创建和删除表

val userTable = TableName.valueOf("user")//创建 user 表val tableDescr = new HTableDescriptor(userTable)tableDescr.addFamily(new HColumnDescriptor("basic".getBytes))println("Creating table `user`. ")if (admin.tableExists(userTable)) {  admin.disableTable(userTable)  admin.deleteTable(userTable)}admin.createTable(tableDescr)println("Done!")

插入、查询、扫描、删除操作

HBase 上的操作都需要先创建一个操作对象Put,Get,Delete等,然后调用Table上的相对应的方法

try{  //获取 user 表  val table = conn.getTable(userTable)  try{    //准备插入一条 key 为 id001 的数据    val p = new Put("id001".getBytes)    //为put操作指定 column 和 value (以前的 put.add 方法被弃用了)    p.addColumn("basic".getBytes,"name".getBytes, "wuchong".getBytes)    //提交    table.put(p)    //查询某条数据    val g = new Get("id001".getBytes)    val result = table.get(g)    val value = Bytes.toString(result.getValue("basic".getBytes,"name".getBytes))    println("GET id001 :"+value)    //扫描数据    val s = new Scan()    s.addColumn("basic".getBytes,"name".getBytes)    val scanner = table.getScanner(s)    try{      for(r <- scanner){        println("Found row: "+r)        println("Found value: "+Bytes.toString(          r.getValue("basic".getBytes,"name".getBytes)))      }    }finally {      //确保scanner关闭      scanner.close()    }    //删除某条数据,操作方式与 Put 类似    val d = new Delete("id001".getBytes)    d.addColumn("basic".getBytes,"name".getBytes)    table.delete(d)  }finally {    if(table != null) table.close()  }}finally {  conn.close()}

Spark 操作 HBase

首先要向 HBase 写入数据,我们需要用到PairRDDFunctions.saveAsHadoopDataset。因为 HBase 不是一个文件系统,所以saveAsHadoopFile方法没用。

def saveAsHadoopDataset(conf: JobConf): Unit
Output the RDD to any Hadoop-supported storage system, using a Hadoop JobConf object for that storage system

这个方法需要一个 JobConf 作为参数,类似于一个配置项,主要需要指定输出的格式和输出的表名。

Step 1:我们需要先创建一个 JobConf。

import org.apache.hadoop.hbase.mapred.TableOutputFormat//定义 HBase 的配置val conf = HBaseConfiguration.create()conf.set("hbase.zookeeper.property.clientPort", "2181")conf.set("hbase.zookeeper.quorum", "master")//指定输出格式和输出表名val jobConf = new JobConf(conf,this.getClass)jobConf.setOutputFormat(classOf[TableOutputFormat])jobConf.set(TableOutputFormat.OUTPUT_TABLE,"user")

Step 2: RDD 到表模式的映射
在 HBase 中的表 schema 一般是这样的:

row cf:col_1 cf:col_2
而在Spark中,我们操作的是RDD元组,比如(1,”lilei”,14), (2,”hanmei”,18)。我们需要将RDD[(uid:Int, name:String, age:Int)] 转换成 RDD[(ImmutableBytesWritable, Put)]。所以,我们定义一个 convert 函数做这个转换工作

def convert(triple: (Int, String, Int)) = {      val p = new Put(Bytes.toBytes(triple._1))      p.addColumn(Bytes.toBytes("basic"),Bytes.toBytes("name"),Bytes.toBytes(triple._2))      p.addColumn(Bytes.toBytes("basic"),Bytes.toBytes("age"),Bytes.toBytes(triple._3))      (new ImmutableBytesWritable, p)}

Step 3: 读取RDD并转换

//read RDD data from somewhere and convertval rawData = List((1,"lilei",14), (2,"hanmei",18), (3,"someone",38))val localData = sc.parallelize(rawData).map(convert)

Step 4: 使用saveAsHadoopDataset方法写入HBase

localData.saveAsHadoopDataset(jobConf)

读取 HBase

Spark读取HBase,我们主要使用SparkContext 提供的newAPIHadoopRDDAPI将表的内容以 RDDs 的形式加载到 Spark 中。

val conf = HBaseConfiguration.create()conf.set("hbase.zookeeper.property.clientPort", "2181")conf.set("hbase.zookeeper.quorum", "master")//设置查询的表名conf.set(TableInputFormat.INPUT_TABLE, "user")val usersRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],  classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],  classOf[org.apache.hadoop.hbase.client.Result])val count = usersRDD.count()println("Users RDD Count:" + count)usersRDD.cache()//遍历输出usersRDD.foreach{ case (_,result) =>  val key = Bytes.toInt(result.getRow)  val name = Bytes.toString(result.getValue("basic".getBytes,"name".getBytes))  val age = Bytes.toInt(result.getValue("basic".getBytes,"age".getBytes))  println("Row key:"+key+" Name:"+name+" Age:"+age)}
0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 烧电焊后眼睛痛怎么办 用电焊后眼睛痛怎么办 看电焊后眼睛痛怎么办 眼睛焊电焊很痛怎么办 电焊没带眼睛痛怎么办 有东西进眼睛了怎么办 眼睛有东西磨眼怎么办 怀孕了眼睛肿疼怎么办 眼睛疼又红血丝怎么办 用眼过度眼睛疼怎么办 眼睛玩手机视力下降怎么办 看手机眼睛疼该怎么办 眼睛眨一下就痛怎么办 着火了怎么办教案详案 汽车尾灯磕破了怎么办 后尾灯灯罩裂了怎么办 七氟丙烷喷伤了怎么办 冒险岛2fps低怎么办 虐杀原形2很卡怎么办 玩虐杀原形2卡怎么办 虐杀原形2闪退怎么办 电脑显示不出u盘怎么办 电脑不显示u盘怎么办 u盘在电脑不显示怎么办 笔记本不识别u盘怎么办 u盘突然识别不了怎么办 xp电脑读不出u盘怎么办 电脑无法读取u盘怎么办 win7电脑不读u盘怎么办 电脑识别不出u盘怎么办 u盘电脑读不出来怎么办 u盘突然无法识别怎么办 u盘电脑无法识别怎么办 系统无法识别u盘怎么办 手机u盘无法识别怎么办 u盘无法被识别怎么办 电脑不能读取u盘怎么办 电脑装系统卡了怎么办 怀孕三个月胚胎停育怎么办 被蟑螂咬了怎么办图片 有家人进了传销怎么办