基于Hadoop生态圈的数据仓库实践 —— ETL

来源:互联网 发布:程序员必备软件 编辑:程序博客网 时间:2024/05/22 00:16
使用Oozie定期自动执行ETL
1. Oozie简介

(1)Oozie是什么
        Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp,及其Java程序和shell脚本等特定的系统作业。
        第一版Oozie是一个基于工作流引擎的服务器,通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器,按时间和数据触发工作流执行。它可以基于时间(如每小时执行一次)或数据可用性(如等待输入数据完成后再执行)连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象,批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业,这样可以更好地简化操作控制。
(2)为什么需要Oozie
  • 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起执行,或者需要多个作业并行处理。Oozie可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。
  • 从调度的角度看,如果使用crontab的方式调用多个工作流作业,可能需要编写大量的脚本,还要通过脚本来控制好各个工作流作业的执行时序问题,不但脚本不好维护,而且监控也不方便。基于这样的背景,Oozie提出了Coordinator的概念,它能够将每个工作流作业作为一个动作来运行,相当于工作流定义中的一个执行节点,这样就能够将多个工作流作业组成一个称为Coordinator Job的作业,并指定触发时间和频率,还可以配置数据集、并发数等。
(3)Oozie的体系结构(摘自http://www.infoq.com/cn/articles/introductionOozie/
        Oozie的体系结构如下图所示。


        Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

  • 工作流定义
  • 当前运行的工作流实例,包括实例的状态和变量
        Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML流程定义语言)来描述这个图。
        hPDL是一种很简洁的语言,只会使用少数流程控制和动作节点。控制节点会定义执行的流程,并包含工作流的起点和终点(start、end和fail节点)以及控制工作流执行路径的机制(decision、fork和join节点)。动作节点是一些机制,通过它们工作流会触发执行计算或者处理任务。Oozie为以下类型的动作提供支持: Hadoop map-reduce、Hadoop文件系统、Pig、Java和Oozie的子工作流(SSH动作已经从Oozie schema 0.2之后的版本中移除了)。
        所有由动作节点触发的计算和处理任务都不在Oozie之中——它们是由Hadoop的Map/Reduce框架执行的。这种方法让Oozie可以支持现存的Hadoop用于负载平衡、灾难恢复的机制。这些任务主要是异步执行的(只有文件系统动作例外,它是同步处理的)。这意味着对于大多数工作流动作触发的计算或处理任务的类型来说,在工作流操作转换到工作流的下一个节点之前都需要等待,直到计算或处理任务结束了之后才能够继续。Oozie可以通过两种不同的方式来检测计算或处理任务是否完成,也就是回调和轮询。当Oozie启动了计算或处理任务的时候,它会为任务提供唯一的回调URL,然后任务会在完成的时候发送通知给特定的URL。在任务无法触发回调URL的情况下(可能是因为任何原因,比方说网络闪断),或者当任务的类型无法在完成时触发回调URL的时候,Oozie有一种机制,可以对计算或处理任务进行轮询,从而保证能够完成任务。
        Oozie工作流可以参数化(在工作流定义中使用像${inputDir}之类的变量)。在提交工作流操作的时候,我们必须提供参数值。如果经过合适地参数化(比方说,使用不同的输出目录),那么多个同样的工作流操作可以并发。
        一些工作流是根据需要触发的,但是大多数情况下,我们有必要基于一定的时间段和(或)数据可用性和(或)外部事件来运行它们。Oozie协调系统(Coordinator system)让用户可以基于这些参数来定义工作流执行计划。Oozie协调程序让我们可以以谓词的方式对工作流执行触发器进行建模,那可以指向数据、事件和(或)外部事件。工作流作业会在谓词得到满足的时候启动。
        经常我们还需要连接定时运行、但时间间隔不同的工作流操作。多个随后运行的工作流的输出会成为下一个工作流的输入。把这些工作流连接在一起,会让系统把它作为数据应用的管道来引用。Oozie协调程序支持创建这样的数据应用管道。

(4)CDH 5.7.0中的Oozie

        CDH 5.7.0中,Oozie的版本是4.1.0,元数据存储使用MySQL。关于CDH 5.7.0中Oozie的属性,参考以下链接:
https://www.cloudera.com/documentation/enterprise/latest/topics/cm_props_cdh570_oozie.html

2. 建立定期装载工作流
(1)修改资源配置
        需要将以下两个参数的值调高:
[plain] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. yarn.nodemanager.resource.memory-mb = 2000  
  2. yarn.scheduler.maximum-allocation-mb = 2000  
        否则会在执行工作流作业时报类似下面的错误:
org.apache.oozie.action.ActionExecutorException: JA009: org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException: Invalid resource request, requested memory < 0, or requested memory > max configured, requestedMemory=1536, maxMemory=1500
        具体做法是,从CDH Web控制台修改相关参数,保存更改并重启集群。
        yarn.nodemanager.resource.memory-mb参数在YARN服务的NodeManager范围里,如下图所示。
        yarn.scheduler.maximum-allocation-mb参数在YARN服务的ResourceManager范围里,如下图所示。
        从Web控制台重启集群的界面如下图所示。
(2)启用Oozie Web Console
        缺省配置时,Oozie Web Console是禁用的,为了后面方便监控Oozie作业的执行,需要将其改为启用。“启用 Oozie 服务器 Web 控制台”参数在Oozie服务的主要范围里,如下图所示。


        具体的做法是:

  • 下载安装ext-2.2。
  • 从CDH Web控制台修改相关参数,保存更改并重启Oozie服务。
        详细步骤参考以下链接:http://www.cloudera.com/documentation/enterprise/5-5-x/topics/admin_oozie_console.html

(3)启动sqoop的share metastore service
        定期装载工作流需要用Oozie调用Sqoop执行,这需要开启Sqoop元数据共享存储,命令如下:
[plain] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. sqoop metastore > /tmp/sqoop_metastore.log 2>&1 &  
        关于Oozie无法运行Sqoop Job的问题,参考以下链接:http://www.lamborryan.com/oozie-sqoop-fail/

(4)连接metastore重建sqoop job
        前面建立的sqoop job,其元数据并没有存储在share metastore里,所以需要使用以下的命令重建。
[plain] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. last_value=`sqoop job --show myjob_incremental_import | grep incremental.last.value | awk '{print $3}'`  
  2. sqoop job --delete myjob_incremental_import  
  3. sqoop job \  
  4. --meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \  
  5. --create myjob_incremental_import \  
  6. -- \  
  7. import \  
  8. --connect "jdbc:mysql://cdh1:3306/source?useSSL=false&user=root&password=mypassword" \  
  9. --table sales_order \  
  10. --columns "order_number, customer_number, product_code, order_date, entry_date, order_amount" \  
  11. --hive-import \  
  12. --hive-table rds.sales_order \  
  13. --incremental append \  
  14. --check-column order_number \  
  15. --last-value $last_value  
        其中$last-value是上次ETL执行后的值。

(5)定义工作流
        建立内容如下的workflow.xml文件:
[html] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. <?xml version="1.0" encoding="UTF-8"?>  
  2. <workflow-app xmlns="uri:oozie:workflow:0.1" name="regular_etl">  
  3.     <start to="fork-node"/>  
  4.     <fork name="fork-node">  
  5.         <path start="sqoop-customer" />  
  6.         <path start="sqoop-product" />  
  7.         <path start="sqoop-sales_order" />  
  8.     </fork>  
  9.     <action name="sqoop-customer">  
  10.         <sqoop xmlns="uri:oozie:sqoop-action:0.2">  
  11.             <job-tracker>${jobTracker}</job-tracker>  
  12.             <name-node>${nameNode}</name-node>  
  13.             <arg>import</arg>  
  14.             <arg>--connect</arg>  
  15.             <arg>jdbc:mysql://cdh1:3306/source?useSSL=false</arg>  
  16.             <arg>--username</arg>  
  17.             <arg>root</arg>  
  18.             <arg>--password</arg>  
  19.             <arg>mypassword</arg>  
  20.             <arg>--table</arg>  
  21.             <arg>customer</arg>  
  22.             <arg>--hive-import</arg>  
  23.             <arg>--hive-table</arg>  
  24.             <arg>rds.customer</arg>  
  25.             <arg>--hive-overwrite</arg>              
  26.             <file>/tmp/hive-site.xml#hive-site.xml</file>  
  27.             <archive>/tmp/mysql-connector-java-5.1.38-bin.jar#mysql-connector-java-5.1.38-bin.jar</archive>  
  28.         </sqoop>  
  29.         <ok to="joining"/>  
  30.         <error to="fail"/>  
  31.     </action>  
  32.     <action name="sqoop-product">  
  33.         <sqoop xmlns="uri:oozie:sqoop-action:0.2">  
  34.             <job-tracker>${jobTracker}</job-tracker>  
  35.             <name-node>${nameNode}</name-node>  
  36.             <arg>import</arg>  
  37.             <arg>--connect</arg>  
  38.             <arg>jdbc:mysql://cdh1:3306/source?useSSL=false</arg>  
  39.             <arg>--username</arg>  
  40.             <arg>root</arg>  
  41.             <arg>--password</arg>  
  42.             <arg>mypassword</arg>  
  43.             <arg>--table</arg>  
  44.             <arg>product</arg>  
  45.             <arg>--hive-import</arg>  
  46.             <arg>--hive-table</arg>  
  47.             <arg>rds.product</arg>  
  48.             <arg>--hive-overwrite</arg>              
  49.             <file>/tmp/hive-site.xml#hive-site.xml</file>  
  50.             <archive>/tmp/mysql-connector-java-5.1.38-bin.jar#mysql-connector-java-5.1.38-bin.jar</archive>  
  51.         </sqoop>  
  52.         <ok to="joining"/>  
  53.         <error to="fail"/>  
  54.     </action>  
  55.     <action name="sqoop-sales_order">  
  56.         <sqoop xmlns="uri:oozie:sqoop-action:0.2">  
  57.             <job-tracker>${jobTracker}</job-tracker>  
  58.             <name-node>${nameNode}</name-node>  
  59.             <command>job --exec myjob_incremental_import --meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop</command>  
  60.             <file>/tmp/hive-site.xml#hive-site.xml</file>  
  61.             <archive>/tmp/mysql-connector-java-5.1.38-bin.jar#mysql-connector-java-5.1.38-bin.jar</archive>  
  62.         </sqoop>  
  63.         <ok to="joining"/>  
  64.         <error to="fail"/>  
  65.     </action>  
  66.     <join name="joining" to="hive-node"/>  
  67.     <action name="hive-node">  
  68.         <hive xmlns="uri:oozie:hive-action:0.2">  
  69.             <job-tracker>${jobTracker}</job-tracker>  
  70.             <name-node>${nameNode}</name-node>   
  71.             <job-xml>/tmp/hive-site.xml</job-xml>  
  72.             <script>/tmp/regular_etl.sql</script>  
  73.         </hive>  
  74.         <ok to="end"/>  
  75.         <error to="fail"/>  
  76.     </action>  
  77.     <kill name="fail">  
  78.         <message>Sqoop failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>  
  79.     </kill>  
  80.     <end name="end"/>  
  81. </workflow-app>  
        其DAG如下图所示。

        该工作流包括9个节点,其中有5个控制节点,4个动作节点:工作流的起点(start)、终点(end)、失败处理节点(fail,DAG图中未显示),两个执行路径控制节点(fork-node和joining,fork与join节点必须成对出现),三个并行处理的Sqoop行动节点(sqoop-customer、sqoop-product、sqoop-sales_order)用作数据抽取,一个Hive行动节点(hive-node)用作数据转换与装载。
(6)部署工作流
[plain] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. hdfs dfs -put -f workflow.xml /user/root/  
  2. hdfs dfs -put /etc/hive/conf.cloudera.hive/hive-site.xml /tmp/  
  3. hdfs dfs -put /root/mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar /tmp/  
  4. hdfs dfs -put /root/regular_etl.sql /tmp/  
(7)建立作业属性文件
        建立内容如下的job.properties文件:
[plain] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. nameNode=hdfs://cdh2:8020  
  2. jobTracker=cdh2:8032  
  3. queueName=default  
  4. oozie.use.system.libpath=true  
  5. oozie.wf.application.path=${nameNode}/user/${user.name}  
(8)运行工作流
[plain] view plain copy
 在CODE上查看代码片派生到我的代码片
  1. oozie job -oozie http://cdh2:11000/oozie -config /root/job.properties -run  
        此时从Oozie Web Console可以看到正在运行的作业,如下图所示。
        点击作业所在行,可以打开作业的详细信息窗口,如下图所示。
        点击动作所在行,可以打开动作的详细信息窗口,如下图所示。
        可以点击Console URL右侧的图标,可以打开Map/Reduce作业的跟踪窗口,如下图所示。
        当Oozie作业执行完,可以在“All Jobs”标签页看到,Status列已经从RUNNING变为SUCCEEDED,如下图所示。
        此时查看cdc_time表的数据,可以看到日期已经改为当前日期,如下图所示。
0 0