大数据(十二) - Oozie

基本概念

眼下计算框架和作业类型繁多:

MapReduce Java、Streaming、HQL、Pig等

怎样对这些框架和作业进行统一管理和调度:

不同作业之间存在依赖关系(DAG);

周期性作业

定时运行的作业

作业运行状态监控与报警

多种解决方式:

Crontab

自己设计调度系统

直接使用开源系统

Hadoop作业流调度系统基本功能

对常见作业类型进行调度

MapReduce(Java、Streaming等)作业

Hive作业

Pig作业

Shell ….

依据须要对作业进行调度

按周期调度

定时调度……

支持容错与报警

可视化作业流执行过程

常见的开源作业流调度系统

Oozie (已经成为hadoop标配)

Yahoo。开源,基于xml表达作业依赖关系;

Azkaban

Linkedin开源,通过Java property配置作业依赖关系

Zeus(宙斯) (据说不再更新)

阿里开源,通过界面配置作业依赖关系

其它开源系统

Cascading(通过Java API编程实现作业依赖关系)

Oozie执行流程

Oozie基本架构

Oozie 使用方式

Oozie CLI

JAVA API

REST API

WEB UI(仅仅读)

Oozie基本概念

作业流由一组行为节点(HadoopMR作业、Hive作业等)构成,且这些节点通过控制流节点相连;

控制流节点定义了工作流的起始与结束,并控制着工作流的运行路径;

行为节点包括一个计算/处理任务。包括:Hadoop map-reduce, HDFS, Pig, SSH, HTTP, eMail等

Oozie工作流是通过hPDL语言(一种XML过程定义语言)编写的。

Oozie 层次结构

Oozie Action

支持Hadoop map-reduce, HDFS,
Pig, SSH, HTTP, eMail等;

可设置重试次数。

Oozie 控制流

Coordinator

定期运行一个工作流;

数据准备完成后运行一个工作流。

Oozie官网

http://oozie.apache.org/

时间: 2024-10-07 01:36:57

大数据(十二) - Oozie的相关文章

蔡先生论道大数据十九:王羲之与大数据

2013年德勤公司发布了一份<2013年艺术品在线交易报告>,显示艺术品投资交易方式由线下慢慢朝着线上交易的方式转变,过去几年至少有80%的藏家尝试过在线购买艺术品,这一趋势还在不断上升.对于艺术品电商来说是个好势头. 但艺术品电商如何找到潜在市场.定位目标客户,提高用户体验和转化率从而增加收益,首先,我们看一下艺术品电商和传统电商的区别,购买艺术品的人群属于高净值的精英阶层,相比淘宝用户数量来说比例非常小,购买特点具有明显的喜好性,比如有人喜欢收藏字画,而有人喜欢瓷器,其次艺术品非普通商品具

蔡先生论道大数据之二 , 国外互联网公司的大数据应用

第一章我阐述了大数据的前世今生,今天我们来看看国外大公司如何利用和布局大数据的. IBM IBM是商业分析和大数据技术的最活跃厂商之一.早在大数据概念进入媒体视野之前,IBM就提出"智慧地球"的说法,其核心是把"智慧"嵌入系统和流程之中,使服务的交付.产品开发.制造.采购和销售得以实现,使亿万人生活和工作的方式变得更加智慧.现在,大数据技术为IBM提供了一种实现途径.近年来,IBM先后投资了SPSS.Clarity.penPages.i2.Algorithmics等

大数据十年回顾(1):大数据史前的数据库发展

是当前最热的技术之一,这十年它经历了哪些阶段?每个阶段分别创造和发展了什么?未来大数据又将朝着哪些方向继续前行?在这篇文章里,我们沿大数据发展时间线,从产品.行业.技术多角度讨论其发展脉络,究其发展承其脉络大家可以学习.借鉴.并最终推测未来大致走向. ? 引子 我一直认为大数据中文社区里面不乏各类技术大牛所著深度架构干货,同时亦不乏各类技术的总监 /VP/CXO 高屋建瓴指点行业江山的激情文字,所缺的往往是站在技术.产品.社区.市场交汇点的思考点滴.有如我经常在我部门中所说,中国当前不乏各类云计

大数据【二】HDFS部署及文件读写(包含eclipse hadoop配置)

一 原理阐述 1' DFS 分布式文件系统(即DFS,Distributed File System),指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂. 2' HDFS 借此,关于GFS和HDFS的区别与联系查看 我于博客园找到的前辈的博客>>http://www.cnblogs.com/liango/p/7136448.html HDFS(Hadoop Dis

大数据运算系统二

目录 一.同步图计算 1.图算法 2.同步图计算 3.系统实现 二.异步图计算 1.数据模型 2.计算过程 (本文为陈世敏老师课程笔记) ------------------------------------------- 一.同步图计算 1.图算法 PageRank:随机游走模拟网页浏览得到网页重要度排名,从1/N初始化,直到公式收敛 (1-d)/n是任意跳转的概率,后面的邻居通过超链接跳到他的概率.为了防止N很大时候精度不够,公式两边乘以N,R'=NR,R'初始化为   1 2.同步图计算

大数据之二:Hadoop与Spark辨析

转载自知乎:https://www.zhihu.com/question/26568496 1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行 处理,非常适合数据密集型计算. 2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘 计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代 应用和交互式应用的计算效率. 3) Storm:MapReduce也不适合进行流式计算.实时分析,

大数据存储系统二

目录 一.Key-value store 1.Dynamo 1.1 consistence hash 1.2 Quorum机制保证无主节点正确性 1.3 Eventual Consistency 2.Bigtable/Hbase 3.Cassandra 二.Distributed Coordination:Zookeeper 1.概念 2.数据模型 3.基本原理 4.应用案例 (本文为陈世敏老师课程笔记) ---------------------------------------------

怎么把大数据的二维数组转化为一维数组????

今天做了一场比赛发现一个题卡死在数据上,原本要开一个二维数组a[2e5][2e5]但是这样肯定要re.我一直卡死在这个地方,比赛中想到了一个方法. 那就是用string数组去计数,那样就可以开一个st[2e5]的数组就可以了...然而这样伴随着一些问题.我发现直接用st[i][j]=t;这样是不对的,输出发现没有输出数据!!! 后来我发现必须先把string数组的每一个元素先赋值一个东西,因为我表示的是一个矩阵,所以我把string数组的每一个元素,也是一个string,这里定义为ss了,那么如

Azure HDInsight 和 Spark 大数据实战(二)

HDInsight cluster on Linux 登录 Azure portal (https://manage.windowsazure.com ) 点击左下角的 NEW 按钮,然后点击 DATA SERVICES 按钮,点击 HDINSIGHT,选择 HADOOP ON LINUX,如下图所示. 输入集群名称,选择集群大小和账号,设定集群的密码和存储账号,下表是各个参数的含义和配置说明. Name Value Cluster Name Name of the cluster. Clust