Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
来源:互联网 发布:nba球员身体数据 编辑:程序博客网 时间:2024/05/05 14:45
1. 向HDFS导入数据
. 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
. 建立一个作业,把文件放置到Hadoop中。
(1)打开PDI,新建一个作业,如图1所示。
(3)保存并执行作业,日志如图3所示。
(4)检查Hadoop,结果如图4所示。
2. 向Hive导入数据
. 从下面的地址下载web日志示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
. 解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。
hadoop fs -put weblogs_parse.txt /user/grid/
. 建立一个作业,将文件导入到hive表中。
(1)执行下面的HSQL建立一个hive表,从图5可以看到,已经在test库中建立了weblogs表,此时表中没有数据。
(3)编辑'Hadoop Copy Files'作业项,如图6所示。
(4)保存并执行作业,日志如图7所示。
(5)查询test.weblogs表,结果如图8所示。
. 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
. 建立一个作业,把文件放置到Hadoop中。
(1)打开PDI,新建一个作业,如图1所示。
图1
(2)编辑'Hadoop Copy Files'作业项,如图2所示。图2
说明:hadoop_local是已经建立好的Hadoop Clusters连接,建立过程参考http://blog.csdn.net/wzy0623/article/details/51086821。(3)保存并执行作业,日志如图3所示。
图3
从图3可以看到,作业已经成功执行。(4)检查Hadoop,结果如图4所示。
图4
从图4可以看到,weblogs_rebuild.txt已经传到了Hadoop的/user/grid/目录下。2. 向Hive导入数据
. 从下面的地址下载web日志示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
. 解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。
hadoop fs -put weblogs_parse.txt /user/grid/
. 建立一个作业,将文件导入到hive表中。
(1)执行下面的HSQL建立一个hive表,从图5可以看到,已经在test库中建立了weblogs表,此时表中没有数据。
create table test.weblogs (client_ip string,full_request_date string,day string,month string,month_num int,year string,hour string,minute string,second string,timezone string,http_verb string,uri string,http_status_code string,bytes_returned string,referrer string,user_agent string)row format delimitedfields terminated by '\t';
图5
(2)打开PDI,新建一个作业,如图1所示。(3)编辑'Hadoop Copy Files'作业项,如图6所示。
图6
说明:hadoop_local是已经建立好的Hadoop Clusters连接,建立过程参考http://blog.csdn.net/wzy0623/article/details/51086821。(4)保存并执行作业,日志如图7所示。
图7
从图7可以看到,作业已经成功执行。(5)查询test.weblogs表,结果如图8所示。
图8
从图8可以看到,向test.weblogs表中导入了445454条数据。 0 0
- Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
- Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
- Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群
- Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集
- Pentaho Work with Big Data(八)—— kettle集群
- Pentaho Work with Big Data(四)—— 转换Hive里的数据
- Pentaho Work with Big Data(二)—— Kettle提交Spark作业
- Pentaho Work with Big Data(五)—— 格式化原始web日志
- 数据挖掘(Data Mining)——Pentaho Weka
- 数据挖掘(Data Mining)——Pentaho Weka
- 【Big Data】HADOOP集群的配置(二)
- Work with data folder
- Big Data with MATLAB
- Big Data 及 Hadoop
- 【Solr】深入浅出Solr(三)——使用Solrj向索引库中导入数据
- 大数据教程(三)—— Hadoop集群分布式坏境搭建
- 大数据教程(三)—— Hadoop集群分布式坏境搭建
- 一步两步,学习大数据(三)——Hadoop集群安装
- SDUT OJ 3328 JAVA判断合法标识符
- android开发问题
- SM30需要传输请求
- Swift笔记:元组
- 把n个骰子扔在地上,所有骰子朝上一面的点数之和为S。输入n, 打印出S的所有可能的值出现的概率。
- Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
- MySQL Memory 存储引擎
- VIM配置Step By Step-----NERDTree篇
- PHP调试利器XDebug的安装与使用
- mysql timediff函数极限值
- Asp.net mvc 控制器
- Android学习之Android本地存储的五种方式
- 剑指offer:正则式匹配
- AutoLayout框架Masonry使用心得--推酷