Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

来源：互联网发布：nba球员身体数据编辑：程序博客网时间：2024/05/05 14:45

1. 向HDFS导入数据
. 从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
. 建立一个作业，把文件放置到Hadoop中。
（1）打开PDI，新建一个作业，如图1所示。

图1

（2）编辑'Hadoop Copy Files'作业项，如图2所示。

图2

说明：hadoop_local是已经建立好的Hadoop Clusters连接，建立过程参考http://blog.csdn.net/wzy0623/article/details/51086821。
（3）保存并执行作业，日志如图3所示。

图3

从图3可以看到，作业已经成功执行。
（4）检查Hadoop，结果如图4所示。

图4

从图4可以看到，weblogs_rebuild.txt已经传到了Hadoop的/user/grid/目录下。

2. 向Hive导入数据
. 从下面的地址下载web日志示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
. 解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。
hadoop fs -put weblogs_parse.txt /user/grid/
. 建立一个作业，将文件导入到hive表中。
（1）执行下面的HSQL建立一个hive表，从图5可以看到，已经在test库中建立了weblogs表，此时表中没有数据。

create table test.weblogs (client_ip    string,full_request_date string,day    string,month    string,month_num int,year    string,hour    string,minute    string,second    string,timezone    string,http_verb    string,uri    string,http_status_code    string,bytes_returned        string,referrer        string,user_agent    string)row format delimitedfields terminated by '\t';

图5

（2）打开PDI，新建一个作业，如图1所示。
（3）编辑'Hadoop Copy Files'作业项，如图6所示。

图6

说明：hadoop_local是已经建立好的Hadoop Clusters连接，建立过程参考http://blog.csdn.net/wzy0623/article/details/51086821。
（4）保存并执行作业，日志如图7所示。

图7

从图7可以看到，作业已经成功执行。
（5）查询test.weblogs表，结果如图8所示。

图8

从图8可以看到，向test.weblogs表中导入了445454条数据。

0 0