Apache Oozie

1. Apache Oozie

  Oozie是一个工作流调度系统。Oozie是运行于Java Servlet容器上的一个java web应用。Oozie是按照有向无权图(DAG)调度方式,使用xml文件配置工作流。最初是由Cloudear公司开发,后来贡献给Apache

  a. apache Oozie架构

  • oozie的webapp:oozie的server

  提供一个UI界面,接收客户点的提交的任务,提交给hadoop几圈,启动一个只有一个map没有reduce的mapreduce任务来调度工作的任务具体的执行,交给服务项。

b. 基本原理

采用xml配置工作流

  1. xml:workflow.xml 配置工作流的具体执行(有向无环图实现到配置文件)。
  2. job.properties:工作流的通用配置文件,执行参数信息。

将节点分为两类:

  1. 控制节点:描述工作流的走向 start end fork join kill
  2. 动作节点:具体执行任务的节点 包括不局限于:mr,java,hive,shell,spark等。

c. 工作流的类型

  1. workFlow:顺序执行流程节点,普通的工作流的调度,不涉及定时,不涉及批处理的工作流。
  2. coordinator:支持定时循环的调度任务
  3. bundle:即支持定时又支持批处理。

原文地址:https://www.cnblogs.com/qidi/p/11646003.html

时间: 2024-08-07 19:55:07

Apache Oozie的相关文章

驭象者之Apache Oozie

(1)Apache Oozie是什么? Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的. Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG).Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,Hive, Sqoop , Distcp,也可以结合一些脚本如Shell,Python,Java来很灵活的

Apache Oozie Coordinator 作业自定义配置定时任务

一,介绍 Oozie是Hadoop的工作流系统,如果使用Oozie来提交MapReduce作业(Oozie 不仅仅支持MapReduce作业,还支持其他类型的作业),可以借助Oozie Coordinator 作业来实现定时运行. 对于Oozie的作业而言,在它提交给Hadoop之前首先需要部署好.即,将配置文件(定时作业是coordinator.xml,workflow作业则是workflow.xml).可执行的jar文件.还有待处理的输入数据上传到HDFS上. 一个典型的workflow作业

apache oozie安装试用

oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了.试用了下,小坑还蛮多的. 1. 编译 我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩. 首先,要把源码里的javaversion从1.6改成1.7,主机是用jdk1.7. 编译oozie,命令是'./bin/mkdistro.sh -DskipTests -Dhadoop.version=1.0.1',跳过测试,另外,不管Hadoop的版本是多少,只要它是1.x的,就只能是

Oozie介绍

1. Hadoop常见调度框架: (1)Linux Crontab:Linux自带的任务调度计划,在任务比较少的情况下,可以使用这种方式,直接执行脚本,例如添加一个执行计划: 0 12 * hive -f xxx.sql(2)Azkaban:(3)Oozie:Cloudera公司开源(4)Zeus:阿里开源. Oozie是管理Hadoop作业的工作流调度系统.Oozie定义了控制流节点和动作节点.Oozie实现的功能:(1)Workflow:顺序执行流程节点:(2)Coordinator:定时触

Oozie Ssh Action问题排查

访问我的独立博客查看文章: http://blog.ywheel.cn/post/2016/07/14/oozie_ssh_action/ 问题描述 最近在我们的其中一个现网环境中部署MR程序,MR程序的调度自然是用Oozie了.在Oozie的Workflow中,我们使用ssh action登录到一台节点上,并且在该节点上部署了脚本做数据库的建表操作. 该程序已经在现网多个生产环境部署运行过,经过了多次验证,但没想到在该环境中仍然出现了问题.问题出在ssh action中,并且抛出了一个Cann

Hadoop工作流引擎之Azkaban与Oozie对比(四)

Azkaban是什么?(一) Azkaban的功能特点(二) Azkaban的架构(三) 不多说,直接上干货! http://www.cnblogs.com/zlslch/category/938837.html 目前,市面上最流行的两种Hadoop工作流引擎调度器Azkaban与Oozie. 具体,可以进一步看我的博客. Azkaban概念学习系列http://www.cnblogs.com/zlslch/category/938837.html 和Oozie概念学习系列http://www.

Oozie 生成JMS消息并向 JMS Provider发送消息过程分析

一,涉及到的工程 从官网下载源码,mvn 编译成 Eclipse工程文件: 对于JMS消息这一块,主要涉及到两个工程: oozie-core工程有问题的原因是还需要一些其他的依赖工程未导入: 二,Oozie 生成 JMS消息 主要涉及到的一些类 oozie-core 工程中的: oozie-client工程中的: 三,相关代码: 对于Oozie Server而言,它是消息的生产者.在oozie-default.xml/oozie-site.xml里面配置好连接参数,消息服务器....Oozie就

HAWQ实践(五)——自动调度工作流(Oozie、Falcon)

一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据.为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行.调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用.本篇说明如何使用HDP中的Oozie和Falcon服务实现ETL执行自动化. 一.Oozie简介 Oozie是一个管理Hadoop作业.可伸缩.可扩展.可靠的工作流调度系统,它内部定义了三种作业:工作流作业.协调器作业和Bundle作业.工作流作业是由一系列

Oozie入门

作者 Boris Lublinsky, Michael Segel ,译者 侯伯薇 发布于 2011年8月18日 |注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! 分享到:微博微信FacebookTwitter有道云笔记邮件分享 稍后阅读 我的阅读清单 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的.[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作