Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
来源:互联网 发布:linux grep 命令 编辑:程序博客网 时间:2024/05/25 05:34
一、把数据从HDFS抽取到RDBMS
1. 从下面的地址下载示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000
2. 用下面的命令把解压缩后的weblogs_aggregate.txt文件放到HDFS的/user/grid/aggregate_mr/目录下。
. PDI连接Hadoop集群参考http://blog.csdn.net/wzy0623/article/details/51086821。
. 以tab作为分隔符。
5. 编辑'Table Output'步骤,如图5所示。
. mysql_local是已经建好的一个本地mysql数据库连接,设置如图6所示。
6. 执行下面的脚本建立mysql的表
7. 保存并执行转换,日志如图7所示。
8. 查询mysql表,结果如图8所示
二、把数据从Hive抽取到RDBMS
1. 执行下面的脚本建立hive的表
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
3. 用下面的命令把解压缩后的weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下。
6. 编辑'Table output'步骤,如图13所示。
. mysql_local是已经建好的一个本地mysql数据库连接,设置如图6所示。
. “数据库字段”标签不需要设置
7. 执行下面的脚本建立mysql的表
9. 查询mysql表,结果如图15所示
参考:
http://wiki.pentaho.com/display/BAD/Extracting+Data+from+HDFS+to+Load+an+RDBMS
http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS
1. 从下面的地址下载示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000
2. 用下面的命令把解压缩后的weblogs_aggregate.txt文件放到HDFS的/user/grid/aggregate_mr/目录下。
hadoop fs -put weblogs_aggregate.txt /user/grid/aggregate_mr/3. 打开PDI,新建一个转换,如图1所示。
图1
4. 编辑'Hadoop File Input'步骤,如图2到图4所示。图2
图3
图4
说明:. PDI连接Hadoop集群参考http://blog.csdn.net/wzy0623/article/details/51086821。
. 以tab作为分隔符。
5. 编辑'Table Output'步骤,如图5所示。
图5
说明:. mysql_local是已经建好的一个本地mysql数据库连接,设置如图6所示。
图6
. “数据库字段”标签不需要设置6. 执行下面的脚本建立mysql的表
use test;create table aggregate_hdfs ( client_ip varchar(15), year smallint, month_num tinyint, pageviews bigint);
7. 保存并执行转换,日志如图7所示。
图7
从图7可以看到,转换已经成功执行。8. 查询mysql表,结果如图8所示
图8
从图8可以看到,数据已经从HDFS抽取到了mysql表中。二、把数据从Hive抽取到RDBMS
1. 执行下面的脚本建立hive的表
create table weblogs ( client_ip string, full_request_date string, day string, month string, month_num int, year string, hour string, minute string, second string, timezone string, http_verb string, uri string, http_status_code string, bytes_returned string, referrer string, user_agent string)row format delimitedfields terminated by '\t';2. 从下面的地址下载示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
3. 用下面的命令把解压缩后的weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下。
hadoop fs -put weblogs_parse.txt /user/hive/warehouse/test.db/weblogs/至此,hive表里的数据如图9所示。
图9
4. 打开PDI,新建一个转换,如图10所示。图10
5. 编辑'Table input'步骤,如图11所示。图11
说明:hive_101是已经建好的一个hive数据库连接,设置如图12所示。图12
说明:PDI连接 Hadoop hive 2,参考http://blog.csdn.net/wzy0623/article/details/50903133。6. 编辑'Table output'步骤,如图13所示。
图13
说明:. mysql_local是已经建好的一个本地mysql数据库连接,设置如图6所示。
. “数据库字段”标签不需要设置
7. 执行下面的脚本建立mysql的表
use test;create table aggregate_hive ( client_ip varchar(15), year varchar(4), month varchar(10), month_num tinyint, pageviews bigint);8. 保存并执行转换,日志如图14所示。
图14
从图14可以看到,转换已经成功执行。9. 查询mysql表,结果如图15所示
图15
从图15可以看到,数据已经从hive数据库抽取到了mysql表中。参考:
http://wiki.pentaho.com/display/BAD/Extracting+Data+from+HDFS+to+Load+an+RDBMS
http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS
0 0
- Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
- Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
- Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群
- Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集
- Pentaho Work with Big Data(八)—— kettle集群
- Pentaho Work with Big Data(四)—— 转换Hive里的数据
- Pentaho Work with Big Data(二)—— Kettle提交Spark作业
- Pentaho Work with Big Data(五)—— 格式化原始web日志
- 数据挖掘(Data Mining)——Pentaho Weka
- 数据挖掘(Data Mining)——Pentaho Weka
- 应用Pentaho Data Integration(Kettle) 6.1 进行数据抽取以及指标计算(一、同构数据抽取)
- 应用Pentaho Data Integration(Kettle) 6.1 进行数据抽取以及指标计算(二、异构数据抽取)
- 【Big Data】HADOOP集群的配置(二)
- 从谷歌(google)到Hadoop,再到大数据商业智能(Big Data BI)
- 大数据从“小”做起——中小企业Big Data解决之道
- Work with data folder
- Big Data with MATLAB
- Big Data 及 Hadoop
- 关于URL编码/javascript/js url 编码/url的三个js编码函数
- 排除已冲销的票
- 四大浏览器内核
- Makefile学习笔记(二)ubuntu平台
- Javase基础笔记---异常部分
- Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
- Poj 1222 高斯消元
- LTE-TDD随机接入过程(5)-怎么生成64个前导码序列
- 虚函数实现机制
- Navicat for SQL Server 高级属性(状态)
- 标记位
- TCP报文
- 怎样才能用好EDIUS中的组与锁定
- 友盟,新浪微博,腾讯QQ分享的一些心得与总结,以及遇到的一些坑