驭象者之Apache Oozie

(1)Apache Oozie是什么?

Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。

Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,Hive, Sqoop , Distcp,也可以结合一些脚本如Shell,Python,Java来很灵活的完成一些事情。同时,它也是一个可伸缩的,可扩展,高可靠的的系统

(2)Apache Oozie能用来干什么?

其实,上面的这张图,已经足够回答这个问题了,工作流嘛,顾名思义,就是我要干一件事,需要很多步骤,然后有序组合,最终达到能够完成这件事的目的。

举个例子,就拿做饭这件事吧。

1,买菜

2,洗菜

3,切菜

4,炒菜

5,上菜

这是一个简单的流程,当然这里面会有很多其他的小细节,比如我买菜,去了不同的菜市场,炒菜时候,又临时去买了一些调料,等等。

仔细分析这里面的道道,有些是有依赖关系的,有些没依赖关系的,比如菜是核心,所有很菜有关的都有先后顺序,其他的辅助步骤,比如说烧水,跟这是没有依赖关系的。反应到实际工作中的一些任务也是如此,所以采用oozie来管理调度,还是很方便的一件事。

(3)Oozie的组成

Readme, license, notice & Release log files.(一个项目的,版权,介绍,log等)

Oozie server: oozie-server directory.(oozie的服务端目录)

Scripts: bin/ directory, client and server scripts.(bin下面有一些常用的命令,来管理oozie的)

Binaries: lib/ directory, client JAR files.(存放oozie的依赖包)

Configuration: conf/ server configuration directory.(oozie的配置文件)

Archives:(归档包目录)

oozie-client-*.tar.gz : Client tools.(oozie的客户端包)

oozie.war : Oozie WAR file.(web的服务工程)

docs.zip : Documentation.(文档)

oozie-examples-*.tar.gz : Examples.(例子)

oozie-sharelib-*.tar.gz : Share libraries (with Streaming, Pig JARs).(一些工作流支持的框架共享包)

(4)oozie支持调度的应用

1,Email任务

2,Shell任务

3,Hive任务

4,Sqoop任务

5,SSH任务

6,Distcp任务

7,自定义的任务

(5)oozie的下载,安装,编译

oozie目前最新的版本是oozie4.1.0,
下载地址1
,如果链接不上,可点击这个
下载地址2

在linux上,可以直接wget http://archive.apache.org/dist/oozie/4.1.0/oozie-4.1.0.tar.gz下载

下载完,可以解压出来根据自己的一些环境编译。

散仙这里的一些环境如下:

Hadoop2.2

JDK1.7

Maven3.0.5

Ant1.9.4

Hive0.13.1

Pig0.12.1

所以,需要修改在oozie的根目录下的pom文件:

1,修改JDK版本

2,如有必要可修改各个组件的版本,在跟目录下执行

grep -l "2.3.0" `find . -name "pom.xml"`

Java代码  

  1. ./pom.xml
  2. ./hadooplibs/hadoop-distcp-2/pom.xml
  3. ./hadooplibs/hadoop-test-2/pom.xml
  4. ./hadooplibs/hadoop-utils-2/pom.xml
  5. ./hadooplibs/hadoop-2/pom.xml

将查出来的pom文件,修改对应hadoop版本,hive,hbase,pig等组件版本

注意使用(sed -e ‘s/2.3.0/2.2.0/g‘ pom.xml 替换可能更快,但是建议自己去修改,因为改的地方并不是太多!)

注意,在4.1.0里,需要把下面这个保持成2.3.0,hadoop的版本可以是2.2.0如果,不改的话,编译Zookeeper-Scurity-Test时候,会报错

Java代码  

  1. [INFO] Apache Oozie ZooKeeper Security Tests ............. FAILURE [2.204s]
  2. [INFO] ------------------------------------------------------------------------
  3. [INFO] BUILD FAILURE
  4. [INFO] ------------------------------------------------------------------------
  5. [INFO] Total time: 5:27.818s
  6. [INFO] Finished at: Fri May 15 12:50:50 CST 2015
  7. [INFO] Final Memory: 132M/237M
  8. [INFO] ------------------------------------------------------------------------
  9. [ERROR] Failed to execute goal on project oozie-zookeeper-security-tests: Could not resolve dependencies for project org.apache.oozie:oozie-zookeeper-security-tests:jar:4.1.0: Failed to collect dependencies for [org.apache.curator:curator-test:jar:2.5.0 (test), org.apache.hadoop:hadoop-minikdc:jar:2.2.0 (test), org.apache.oozie:oozie-core:jar:4.1.0 (test), org.apache.oozie:oozie-core:jar:tests:4.1.0 (test), org.apache.oozie:oozie-hadoop:jar:2.2.0.oozie-4.1.0 (provided), org.apache.oozie:oozie-hadoop-test:jar:2.2.0.oozie-4.1.0 (test)]: Failed to read artifact descriptor for org.apache.hadoop:hadoop-minikdc:jar:2.2.0: Could not transfer artifact org.apache.hadoop:hadoop-minikdc:pom:2.2.0 from/to Codehaus repository (http://repository.codehaus.org/): peer not authenticated -> [Help 1]
  10. [ERROR]
  11. [ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.
  12. [ERROR] Re-run Maven using the -X switch to enable full debug logging.
  13. [ERROR]
  14. [ERROR] For more information about the errors and possible solutions, please read the following articles:
  15. [ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/DependencyResolutionException
  16. [ERROR]
  17. [ERROR] After correcting the problems, you can resume the build with the command
  18. [ERROR]   mvn <goals> -rf :oozie-zookeeper-security-tests

改回2.3.0即可

Java代码  

  1. <dependency>
  2. <groupId>org.apache.hadoop</groupId>
  3. <artifactId>hadoop-minikdc</artifactId>
  4. <version>2.3.0</version>
  5. </dependency>

3,修改完成后,执行下面命令进行编译:

bin/mkdistro.sh -DskipTests -Dhadoop.version=2.2.0

4,中间如果出现错误,不要紧,重新执行上面命令,会增量的编译,原来编译成功的,不会重复编译,编译成功如下:

Java代码  

  1. [INFO] Reactor Summary:
  2. [INFO]
  3. [INFO] Apache Oozie Main .................................. SUCCESS [  1.440 s]
  4. [INFO] Apache Oozie Client ................................ SUCCESS [ 22.217 s]
  5. [INFO] Apache Oozie Hadoop 1.1.1.oozie-4.1.0 .............. SUCCESS [  0.836 s]
  6. [INFO] Apache Oozie Hadoop Distcp 1.1.1.oozie-4.1.0 ....... SUCCESS [  0.065 s]
  7. [INFO] Apache Oozie Hadoop 1.1.1.oozie-4.1.0 Test ......... SUCCESS [  0.182 s]
  8. [INFO] Apache Oozie Hadoop Utils 1.1.1.oozie-4.1.0 ........ SUCCESS [  0.784 s]
  9. [INFO] Apache Oozie Hadoop 2.3.0.oozie-4.1.0 .............. SUCCESS [  4.803 s]
  10. [INFO] Apache Oozie Hadoop 2.3.0.oozie-4.1.0 Test ......... SUCCESS [  0.254 s]
  11. [INFO] Apache Oozie Hadoop Distcp 2.3.0.oozie-4.1.0 ....... SUCCESS [  0.066 s]
  12. [INFO] Apache Oozie Hadoop Utils 2.3.0.oozie-4.1.0 ........ SUCCESS [  1.033 s]
  13. [INFO] Apache Oozie Hadoop 0.23.5.oozie-4.1.0 ............. SUCCESS [  3.231 s]
  14. [INFO] Apache Oozie Hadoop 0.23.5.oozie-4.1.0 Test ........ SUCCESS [  0.336 s]
  15. [INFO] Apache Oozie Hadoop Distcp 0.23.5.oozie-4.1.0 ...... SUCCESS [  0.062 s]
  16. [INFO] Apache Oozie Hadoop Utils 0.23.5.oozie-4.1.0 ....... SUCCESS [  0.878 s]
  17. [INFO] Apache Oozie Hadoop Libs ........................... SUCCESS [  3.780 s]
  18. [INFO] Apache Oozie Hbase 0.94.2.oozie-4.1.0 .............. SUCCESS [  0.338 s]
  19. [INFO] Apache Oozie Hbase Libs ............................ SUCCESS [  0.692 s]
  20. [INFO] Apache Oozie HCatalog 0.13.1.oozie-4.1.0 ........... SUCCESS [  0.919 s]
  21. [INFO] Apache Oozie HCatalog Libs ......................... SUCCESS [  1.735 s]
  22. [INFO] Apache Oozie Share Lib Oozie ....................... SUCCESS [ 13.552 s]
  23. [INFO] Apache Oozie Share Lib HCatalog .................... SUCCESS [ 40.232 s]
  24. [INFO] Apache Oozie Core .................................. SUCCESS [05:03 min]
  25. [INFO] Apache Oozie Docs .................................. SUCCESS [01:07 min]
  26. [INFO] Apache Oozie Share Lib Pig ......................... SUCCESS [01:38 min]
  27. [INFO] Apache Oozie Share Lib Hive ........................ SUCCESS [ 12.927 s]
  28. [INFO] Apache Oozie Share Lib Sqoop ....................... SUCCESS [  5.655 s]
  29. [INFO] Apache Oozie Share Lib Streaming ................... SUCCESS [  4.577 s]
  30. [INFO] Apache Oozie Share Lib Distcp ...................... SUCCESS [  1.900 s]
  31. [INFO] Apache Oozie WebApp ................................ SUCCESS [02:26 min]
  32. [INFO] Apache Oozie Examples .............................. SUCCESS [  3.762 s]
  33. [INFO] Apache Oozie Share Lib ............................. SUCCESS [ 11.415 s]
  34. [INFO] Apache Oozie Tools ................................. SUCCESS [ 10.718 s]
  35. [INFO] Apache Oozie MiniOozie ............................. SUCCESS [  9.647 s]
  36. [INFO] Apache Oozie Distro ................................ SUCCESS [ 27.966 s]
  37. [INFO] Apache Oozie ZooKeeper Security Tests .............. SUCCESS [  7.040 s]
  38. [INFO] ------------------------------------------------------------------------
  39. [INFO] BUILD SUCCESS

5,编译成功后在oozie-release-4.1.0/distro/target目录下,会生成如下的几个文件:

Java代码  

  1. drwxr-xr-x 2 root root      4096 5月  15 13:45 antrun
  2. drwxr-xr-x 2 root root      4096 5月  15 13:45 archive-tmp
  3. drwxr-xr-x 2 root root      4096 5月  15 13:45 maven-archiver
  4. drwxr-xr-x 3 root root      4096 5月  15 13:46 oozie-4.1.0-distro
  5. -rw-r--r-- 1 root root 201469924 5月  15 13:46 oozie-4.1.0-distro.tar.gz
  6. -rw-r--r-- 1 root root      2875 5月  15 13:45 oozie-distro-4.1.0.jar
  7. drwxr-xr-x 3 root root      4096 5月  15 13:45 tomcat

6,拷贝oozie-4.1.0-distro.tar.gz压缩包,至你需要安装的地方并解压,然后进入根目录下,

执行mkdir libext命令,创建libext目录

接着执行

cp ${HADOOP_HOME}/share/hadoop/*/*.jar libext/

cp ${HADOOP_HOME}/share/hadoop/*/lib/*.jar libext/

命令,将hadoop的相关的jar包拷贝至改目录

下载一个ext-2.2.zip包,也放入libext目录,由于oozie的js可能会依赖这个包,最新的版本应该不需要了,待验证?这个包,散仙在文末会上传到附件中,

7,删除libext下这几个包,因为会和hadoop的中的一些包冲突,造成类加载器无法识别重复的jsp,servlet或el解析器:

jasper-compiler-5.5.23.jar

jasper-runtime-5.5.23.jar

jsp-api-2.1.jar

8,修改conf/oozie-site.xml文件,更改以下几个地方:

Xml代码  

  1. <!-- 修改对应的hadoop的安装用户,散仙这里是search -->
  2. <property>
  3. <name>oozie.system.id</name>
  4. <value>oozie-search</value>
  5. <description>
  6. The Oozie system ID.
  7. </description>
  8. </property>
  9. <!-- 修改hadoop的conf的文件目录 -->
  10. <property>
  11. <name>oozie.service.HadoopAccessorService.hadoop.configurations</name>
  12. <value>*=/home/search/hadoop/etc/hadoop</value>
  13. <description>
  14. Comma separated AUTHORITY=HADOOP_CONF_DIR, where AUTHORITY is the HOST:PORT of
  15. the Hadoop service (JobTracker, HDFS). The wildcard ‘*‘ configuration is
  16. used when there is no exact match for an authority. The HADOOP_CONF_DIR contains
  17. the relevant Hadoop *-site.xml files. If the path is relative is looked within
  18. the Oozie configuration directory; though the path can be absolute (i.e. to point
  19. to Hadoop client conf/ directories in the local filesystem.
  20. </description>
  21. </property>
  22. <!-- 修改oozie的share lib的HDFS目录 -->
  23. <property>
  24. <name>oozie.service.WorkflowAppService.system.libpath</name>
  25. <value>/user/search/share/lib</value>
  26. <description>
  27. System library path to use for workflow applications.
  28. This path is added to workflow application if their job properties sets
  29. the property ‘oozie.use.system.libpath‘ to true.
  30. </description>
  31. </property>
  32. <!-- 修改代理用户Hue需要用到,下面这两个配置,在Hadoop的core-site.xml中,同样需要添加,代理用户提交作业功能 -->
  33. <property>
  34. <name>oozie.service.ProxyUserService.proxyuser.search.hosts</name>
  35. <value>*</value>
  36. </property>
  37. <property>
  38. <name>oozie.service.ProxyUserService.proxyuser.search.groups</name>
  39. <value>*</value>
  40. </property>

9,删除/home/search/oozie-4.1.0/conf/hadoop-conf下的core-site.xml文件,将/home/search/hadoop/etc/hadoop/下的所有配置文件,拷贝到此处

(6)执行bin/oozie-setup.sh prepare-war命令,重新生成war包

(7)执行bin/oozie-setup.sh  sharelib  create -fs hdfs://<namenode-hostname>:8020命令,将share下面的共享jar拷贝至HDFS中,

此处,也可以自己使用hadoop fs -copyFromLocal share/ /hdfs/xxx拷贝

(8)执行bin/oozie-setup.sh db create -run初始化oozie数据库

(9)执行bin/oozied.sh start启动oozie server

(10) 执行bin/oozie admin -oozie http://localhost:11000/oozie -status)返回Normal,即代表安装成功

Java代码  

  1. [search@h1 oozie-4.1.0]$ bin/oozie admin -oozie http://localhost:11000/oozie -status
  2. System mode: NORMAL
  3. [search@h1 oozie-4.1.0]$

(11)在win上访问测试

(12)看到上图,说明你已经成功安装了,关系服务的命令

bin/oozied.sh stop,如果说不能停止,需要手动去删掉pid文件,然后在关闭。

oozie安装成功,很重要,因为Hue需要依赖它,做任务调度,下一篇文章,散仙就总结下hue安装笔记。

时间: 2024-08-07 19:55:04

驭象者之Apache Oozie的相关文章

Apache Oozie

1. Apache Oozie Oozie是一个工作流调度系统.Oozie是运行于Java Servlet容器上的一个java web应用.Oozie是按照有向无权图(DAG)调度方式,使用xml文件配置工作流.最初是由Cloudear公司开发,后来贡献给Apache a. apache Oozie架构 oozie的webapp:oozie的server 提供一个UI界面,接收客户点的提交的任务,提交给hadoop几圈,启动一个只有一个map没有reduce的mapreduce任务来调度工作的任

Apache Oozie Coordinator 作业自定义配置定时任务

一,介绍 Oozie是Hadoop的工作流系统,如果使用Oozie来提交MapReduce作业(Oozie 不仅仅支持MapReduce作业,还支持其他类型的作业),可以借助Oozie Coordinator 作业来实现定时运行. 对于Oozie的作业而言,在它提交给Hadoop之前首先需要部署好.即,将配置文件(定时作业是coordinator.xml,workflow作业则是workflow.xml).可执行的jar文件.还有待处理的输入数据上传到HDFS上. 一个典型的workflow作业

apache oozie安装试用

oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了.试用了下,小坑还蛮多的. 1. 编译 我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩. 首先,要把源码里的javaversion从1.6改成1.7,主机是用jdk1.7. 编译oozie,命令是'./bin/mkdistro.sh -DskipTests -Dhadoop.version=1.0.1',跳过测试,另外,不管Hadoop的版本是多少,只要它是1.x的,就只能是

Oozie介绍

1. Hadoop常见调度框架: (1)Linux Crontab:Linux自带的任务调度计划,在任务比较少的情况下,可以使用这种方式,直接执行脚本,例如添加一个执行计划: 0 12 * hive -f xxx.sql(2)Azkaban:(3)Oozie:Cloudera公司开源(4)Zeus:阿里开源. Oozie是管理Hadoop作业的工作流调度系统.Oozie定义了控制流节点和动作节点.Oozie实现的功能:(1)Workflow:顺序执行流程节点:(2)Coordinator:定时触

Oozie Ssh Action问题排查

访问我的独立博客查看文章: http://blog.ywheel.cn/post/2016/07/14/oozie_ssh_action/ 问题描述 最近在我们的其中一个现网环境中部署MR程序,MR程序的调度自然是用Oozie了.在Oozie的Workflow中,我们使用ssh action登录到一台节点上,并且在该节点上部署了脚本做数据库的建表操作. 该程序已经在现网多个生产环境部署运行过,经过了多次验证,但没想到在该环境中仍然出现了问题.问题出在ssh action中,并且抛出了一个Cann

Hadoop工作流引擎之Azkaban与Oozie对比(四)

Azkaban是什么?(一) Azkaban的功能特点(二) Azkaban的架构(三) 不多说,直接上干货! http://www.cnblogs.com/zlslch/category/938837.html 目前,市面上最流行的两种Hadoop工作流引擎调度器Azkaban与Oozie. 具体,可以进一步看我的博客. Azkaban概念学习系列http://www.cnblogs.com/zlslch/category/938837.html 和Oozie概念学习系列http://www.

Oozie 生成JMS消息并向 JMS Provider发送消息过程分析

一,涉及到的工程 从官网下载源码,mvn 编译成 Eclipse工程文件: 对于JMS消息这一块,主要涉及到两个工程: oozie-core工程有问题的原因是还需要一些其他的依赖工程未导入: 二,Oozie 生成 JMS消息 主要涉及到的一些类 oozie-core 工程中的: oozie-client工程中的: 三,相关代码: 对于Oozie Server而言,它是消息的生产者.在oozie-default.xml/oozie-site.xml里面配置好连接参数,消息服务器....Oozie就

HAWQ实践(五)——自动调度工作流(Oozie、Falcon)

一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据.为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行.调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用.本篇说明如何使用HDP中的Oozie和Falcon服务实现ETL执行自动化. 一.Oozie简介 Oozie是一个管理Hadoop作业.可伸缩.可扩展.可靠的工作流调度系统,它内部定义了三种作业:工作流作业.协调器作业和Bundle作业.工作流作业是由一系列

Oozie入门

作者 Boris Lublinsky, Michael Segel ,译者 侯伯薇 发布于 2011年8月18日 |注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! 分享到:微博微信FacebookTwitter有道云笔记邮件分享 稍后阅读 我的阅读清单 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的.[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作