Pig脚本从Hive中load数据并存入到Hbase中
来源:互联网 发布:2017樱井知香在线观看 编辑:程序博客网 时间:2024/06/05 18:25
1、我们先建一个Hive表test01:
create table test01(name String, age int, phone String,province String, city String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;
2、在目录data1下创建文件testdata,里面内容为:
Liming 20 15960096791 Beijing Beijing
Wanggang 30 13854285991 Shandong Qingdao
中间是以tab键分隔开
3、往hive表里插入数据:
load data local inpath '/data1/testdata' overwrite into table test01;
4、创建Hbase表,确定列簇名
create
'hive01'
,{NAME =>
'info'
, VERSIONS => 1},{NAME =>
'address'
, VERSIONS => 1}
5、创建pig脚本:
--pig脚本执行需要的jar包,包含hadoop,hive,hbase等基本的jar包
register /opt/cloudera/parcels/CDH/jars/*.jar
--从hive表里load数据
data = load 'test03' USING org.apache.hcatalog.pig.HCatLoader();
--遍历data,把第一个数据当做Hbase表的key
data1= foreach data GENERATE (chararray)$0 as key,(chararray)$1,(chararray)$2,(chararray)$3,(chararray)$4;
--存入Hbase表hive01里,其中$0是hbase表的key
STORE data1 INTO 'hbase://hive01' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('info:age,info:phone,address:province,address:city');
6、另一种pig脚本:
如果hive的存储格式是parquet,我们可以用ParquetLoader去获取hive中的数据,这种load方式的路径是hive表存在hdfs上的路径而不是表名:
register /opt/cloudera/parcels/CDH/jars/*.jar
--load的路径是hive表所在hdfs的位置
data = load '/user/hive/warehouse/test03/' USING parquet.pig.ParquetLoader as (name:chararray,age:chararray,phone:chararray,province:chararray,city:chararray);
data1= foreach data GENERATE (chararray)$0,(chararray)$1,(chararray)$2,(chararray)$3,(chararray)$4;
STORE data1 INTO 'hbase://hive01' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('info:age,info:phone,address:province,address:city');
- Pig脚本从Hive中load数据并存入到Hbase中
- 从关系库导入数据到hive-hbase表中
- 从关系库导入数据到hive-hbase表中
- 从Oracle数据库中导入数据到Hive中的脚本
- c语言从文件中读入格式化数据并存入sqlite3
- python中,从mysql读取数据,并存入redis里面(1)
- python中,从mysql读取数据,并存入redis里面(2)
- python中,从mysql读取数据,并存入redis里面(3)
- 前台数据通过AJAX传到JAVA后台并存入到txt文件中
- Python爬取天气预报数据,并存入到本地EXCEL中
- Java解析txt文件中json数据到List<entity>,并存入数据库
- Hadoop中Pig,Hive和Hbase的区别
- Hadoop生态中:Hive、Pig、HBase 关系与区别
- java获取excel中数据并存入数据库表中
- 使用Python脚本从Hive中取数据计算后加载到Mysql示例
- 快速分隔一个字符串并存入到List中
- python 网络上抓取数据处理并存入到Excel'中
- C++读取txt中的矩阵数据并存入vector中
- 树链剖分
- 【Android Studio】防止切换屏幕方向时webview重新加载url
- 【杭电2015年12月校赛E】【二进制拆分】Bitwise Equations 第K小的X满足X或Y=X+Y
- 韦东山第三期视频监控编译华美路由器A100固件问题----已经编译通过
- Mac OS X上使用Wireshark抓包 (抓取手机网络)
- Pig脚本从Hive中load数据并存入到Hbase中
- JSP--指令directive
- WinForm窗体更新程序说明
- 7 HTTP 首部(四):其它首部字段
- Volley(1)-入门及使用「汇总」
- NOI2005 BZOJ1500 维修队列 题解&代码
- Github 365天: 给你一年的时间,你会怎样去提高你的水平
- 三谈iOS抓包:HTTPS抓包
- CSS清除浮动的方法