Oozie协作框架

Oozie协作框架

一：概述

1.大数据协作框架

　　

2.Hadoop的任务调度

　　

3.Oozie的三大功能

　　Oozie Workflow jobs

　　Oozie Coordinator jobs

　　Oozie Bundle

4.Oozie的架构

　　控制流节点

　　　　起始，分支，并发，汇合，结束

　　动作节点action

5.Oozie的实现

　　

二：安装部署

1.上传

　　

2.解压

　　

3.配置Hadoop代理core-site.xml

　　

4.启动Hadoop集群

5.解压hadooplib

　　将会生成：oozie-4.0.0-cdh5.3.6

　　　

6.生成

　　

7.创建libext文件

　　

8.拷贝hadooplib的jar包到libext中

　　

9.拷贝js包到libext中

　　

10.创建sharelib库：HDFS,用于运行所有job的依赖

　　bin/oozie-setup.sh sharelib create -fs hdfs://hadoop-senior02.ibeifeng.com:8020 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz

　　

　　HDFS：：

　　

11.打包

　　bin/oozie-setup.sh prepare-war

　　

12.初始化数据库

　　

　　

13.启动

　　

14.web端窗口

　　

三：运行官网的任务流

1.解压家目录下的oozie-examples.tar.gz

　　将会生成examples

2.进入examples，找到将要运行的mapreduce项目

　　job.properties:mapreduce运行需要的配置项，指定workflow的地址，申明相关变量

　　workflow.xml：实际运行的workflow

　　

3.修改job.properties配置项

　　

4.修改oozie.site文件

　　

5.启动hadoop，并上传在家目录下examples项目

　　bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/examples examples

　　

6.启动

　　bin/oozie job -oozie http://linux-hadoop3.ibeifeng.com:11000/oozie -config examples/apps/map-reduce/job.properties -run

　　

7.总结

　　-》bin/oozie job -oozie http://hadoop-senior02.ibeifeng.com:11000/oozie -config examples/apps/map-reduce/job.properties -run

　　提交任务

　　-》oozie读取job.properties
　　-》查找需要运行的wf的地址，将相应变量传递给wf
　　-》读取wf的文件
　　　　-》start节点
　　　　-》action节点
　　　　-》OK-》end
　　　　-》error-》kill
　　-》读取依赖的jar包
　　　　　lib目录
　　-》sharelib的jar包支持

四：自定义wordcount任务流

1.新建目录

　　新建application，在下面建项目wc-wf

　　

2.检测wordcount的jar包是否可以使用

　

3.HDFS上新建input目录，上传wc.inpu

　　

4.上传wc2.jar

　　目录/etc/opt/datas

5.在yarn上运行

　　

6.证明jar包没有问题

　　

7.修改job.properties

　　

8.修改workflow.xml

　　

　　

　　

9.上传wc2.jar到wc-wf中的lib中

　　

10.上传到HDFS上运行

　　 bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/wc-wf/ /

11.运行

　　export OOZIE_URL="http://linux-hadoop3.ibeifeng.com:11000/oozie"

　　bin/oozie job -config applications/wc-wf/job.properties -run

　　

12.结果

　　

五：自定义shell action的workflow

1.拷贝官方的shell，并命名为shell-wf

　　

2.修改job.properties

　　

3.在shell-wf中新建oozie.sh

　　

4.修改workflow.xml

　　

5.完成oozie.sh

　　

6.上传到HDFS

　　bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/shell-wf/ /applications

7.运行

　　bin/oozie job -config applications/shell-wf/job.properties -run

8.结果

　　

六：DAG图的设计

1.拷贝wc-wf，并该名为dag-wf

　　

2.将shell-wf中的.sh拷贝到dag-wf中

　　

3.修改job.properties

　　

4.修改oozie.sh

　　

5.修改workflow.xml

　　

6.上传

　　bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/dag-wf/ /applications

7.运行

　　bin/oozie job -config applications/dag-wf/job.properties -run

8.结果

　　

9.HDFS上

　　

七：修改linux时区

1.查看

　　

2.如果不是+0800，则需要重新生成

　　在linux中删除：

　　　　rm -rf /etc/localtime

　　重新生成：

　　　　ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3.修改时间

　　

4.在oozie.site中修改时区

　　

5.在js中修改时区

　　

6.重新启动oozie

八：编写coordinate

1.复制

　　

2.修改job.properties

　　

3.修改coordinator.xml

　　

4.修改oozie.xml

　　

5.重启oozie

6.上传到HDFS

　　 bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/cron-wf/ /applications

7.运行

　　bin/oozie job -config applications/cron-wf/job.properties -run

8.结果

　　

　　

九：支持crontab的任务调度

1.拷贝

　　

2.修改job.properties

　　

3.修改coordinate

　　

4.上传

　　bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/crontab/ /applications

5.运行

　　bin/oozie job -config applications/crontab/job.properties -run

6.运行结果

　　

　　

时间： 2024-10-21 11:41:01

Oozie协作框架的相关文章

Flume协作框架

Flume协作框架 1.概述 ->flume的三大功能 collecting, aggregating, and moving 收集聚合移动 2.框图 3.架构特点 ->on streaming data flows 基于流式的数据数据流:job->不断获取数据任务流:job1->job2->job3&job4 ->for online analytic application. ->Flume仅仅运行在linux环境下如果我的日志服务器是Wi

作业流 oozie调度框架的配置与使用（一）

一: 常见的调度框架一: oozie 概述与功能二: oozie 安装与配置一: 常见的作用调度框架 1.1 linux 下面的计划任务在工作量比较下的情况下使用linux 下的crond 使用定制计划任务 * * * * * 后面接调度 job 的命令分时日月周 hive -e " " 执行一个sql 命令 hive -f " " 执行一个sql 脚本结合 crond 使用 1.2 常见的协作调度框架: 1.2.1 Azkaban 框架参考

Hue协作框架

一:框架 1.支持的框架 ->job ->yarn ->mr1 ->oozie ->HDFS ->查文件 ->文件的管理 ->增删改查 ->hive ->rdbms 二:安装 1.下载hue包 2.需要安装的依赖 3.检测依赖 4.安装依赖包 sudo yum install ant asciidoc cyrus-sasl-devel libtidy libxml2-devel libxslt-devel mvn mysql-devel

大数据协作框架

Sqoop http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_introduction 原文地址:https://www.cnblogs.com/tianboblog/p/9064524.html

【Hadoop 分布式部署九：分布式协作框架Zookeeper架构分布式安装部署】

1.首先将运行在本地上的 zookeeper 给停止掉 2.到/opt/softwares 目录下将 zookeeper解压到 /opt/app 目录下命令: tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/app/ 3.修改配置文件将文件 zoo_sample.cfg 重命名为 zoo.cfg 创建文件目录 mkdir -p data/zkData 完整的路径:/opt/app/zookeeper-3.4.5/da

作业流调度框架 oozie 使用（二）

oozie 任务调度处理标签(空格分隔): 协作框架一:oozie example 运行任务调度案例二:oozie 运行自定的mapreduce 的jar 包三:oozie 调度shell 脚本四:oozie 的coordinator 周期性调度当前任务一: 运行oozie example 案例 1.1 解压exmaple包解压example 包 tar -zxvf oozie-examples.tar.gz cd /home/hadoop/yangyang/oozie/examp

Sqoop框架基础

Sqoop框架基础本节我们主要需要了解的是大数据的一些协作框架,也是属于Hadoop生态系统或周边的内容,比如: ** 数据转换工具:Sqoop ** 文件收集库框架:Flume ** 任务调度框架:Oozie ** 大数据Web工具:Hue 这些框架为什么成为主流,请自行百度谷歌,此处不再赘述. * CDH版本框架 Cloudera公司发布的CDH版本,在国内,很多大公司仍在使用,比如:一号店,京东,淘宝,百度等等.Cloudera公司发布的每一个CDH版本,其中一个最大的好处就是,帮我们解

大数据？这些你了解吗？（新手）

一.学习大数据需要的基础 java SE,EE(SSM) 90%的大数据框架都是java写的 MySQL SQL on Hadoop Linux 大数据的框架安装在Linux操作系统上二.需要学什么第一方面:大数据离线分析一般处理T+1数据 Hadoop 2.X:(common.HDFS.MapReduce.YARN) 环境搭建,处理数据的思想 Hive:

大数据怎么学习，在学习大数据之前，需要具备什么基础？

大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生.IT.金融.农业.通信等方面都有广泛应用.未来5年大数据行业呈井喷趋势,人才需求火爆,2018年大数据人才缺口更是高达900万.以后想要做大数据相关的工作,需要学习哪些技术知识? 罗马不是一天建成的,大数据工程师也不是短时间能锻造的.想要成为大数据开发工程师,也要看你是否骨骼惊奇,天赋过人!在学习大数据之前,你还需要有一定的基础!大数据学习资料分享群119599574 一.学习大数据需要的基础 1.java SE.EE(SS

猜你喜欢

不要和一种编程语言厮守终生：为工作正确选择（转）

我们程序员在着手一个项目时,需要做的关键决定之一就是选择一种语言,或一组语言,用于实施该系统.这一决定不仅会影响系统的实现,也会影响设计.例如,我们应该使用面向对象的语言还是过程语言?选择什么语言对项 ...

对OSS的操作

进入正题前先说一下我遇到的问题: ①: 这是因为本地时间与服务器时差太大的原因 --你可检查一下你的本地时区,(阿里的程序猿竟突让我换个接口试试!) ②: 我在从OSS上获取图片时因为endp ...

Swift编程语言学习1.5——类型别名、布尔值、元组

类型别名类型别名(type aliases)就是给现有类型定义另一个名字.你可以使用typealias关键字来定义类型别名. 当你想要给现有类型起一个更有意义的名字时,类型别名非常有用.假设你正在处 ...

eclipse JNI项目迁移android studio相关问题

最近在弄项目迁移,eclipse上的项目用到了JNI,需要转移到android studio,本来对JNI就不太懂,这下更麻烦了,遇到各种问题,过程痛苦不堪.不过终于做完了,把遇到问题记录下来,同时也 ...

python3中urllib.request.urlopen.read读取的网页格式问题

#!/usr/bin/env python3 #-*- coding: utf-8 -*- #<a title="" target="_blank" hr ...

style：定宽浮动

.PopPage { position: relative; /*相对定位*/ width: 98%; margin: auto; padding-top: 4px; } .PopPage div { ...

紫书第三章数组和字符串

1 序系统的整理下第三章的学习笔记.例题代码是在未看书本方法前自己尝试并AC的代码,不一定比书上的标程好:习题除了3-8百度了求解方法,其它均独立完成后,会适当查阅网上资料进行整理总结.希望本博文 ...

八进制转十六进制

Input 第一行为一个整数T,表示数据的组数一下T行每行一个八进制数字串s Output 对于每组数据输出对应的十六进制字串 Sample Input 477723323333333333333 ...

jQuery实现鼠标经过图片变亮效果

在线体验效果:http://hovertree.com/texiao/jquery/1.htm 以下是完整源代码: <!DOCTYPE html PUBLIC "-//W3C//DTD ...

rvm实现一个系统同时运行多个ruby版本项目（用于解决一个服务器部署多个ruby版本项目的实现）

搭建环境:centos7 (1)安装rvm 单用户安装: #\curl -L https://get.rvm.io | bash -s stable --ruby 或者: #\curl -sSL ht ...

---恢复内容开始---

1.WebService的知识 2.SQL优化,数据库优化. 3.jQuery,Ajax,CSS,javascript 4.代码执行效率 5.性能优化 6.数据缓存 7.页面缓存 8.设计模式 9.M ...

tp框架

<?php namespace Admin\Controller; use Think\Controller; class DengluController extends Controller ...

适尤志丫峭sdo8aaemdl

是的,从一开始,霍雨浩和贝贝的目标就不是叶无情和上官残.梦红尘.笑红尘都受伤了,并非完全状态.但梦红尘的毒,以及他们自身魂王修为和五级魂导师的能力,依旧强悍."喂,你们两个够了吧.明明我才是 ...

linux下使用shell查看apache IP访问量

1.查看TCP连接状态 netstat -nat |awk '{print $6}'|sort|uniq -c|sort -rn netstat -n | awk '/^tcp/ {++S[$NF]} ...

我的 Unity2D 屏幕适配

以下方法纯属我YY,切勿当真!!! 确定一个设计尺寸,比如 devWidth = 960,devHeight = 640, 按照这个尺寸进行设计游戏. 方式一: 不管什么屏幕尺寸,都和设计的尺寸对应. ...

杂_各种IT小技巧摘录

A.如何设置环境变量?/*WIN系统,以添加mysql运行路径(C:\wamp\bin\mysql\mysql5.5.20\bin)变量为例*/ 方法一:[临时性,仅在当前cmd窗口生效] 打开cmd ...

使用vsftpd搭建ftp服务

FTP,即文件传输协议,它使得主机间可以共享文件.FTP使用TCP生成一个虚拟连接用于控制信息,然后再生成一个单独的TCP连接用于数据传输.控制连接使用类似TELNET协议在主机间交换命令和消息.文件 ...

Oracle RAC安装部署文档

1. 部署环境步骤 1.1 软件环境操作系统:CentOS release 6.5(推荐使用5.*的系统)192.168.1.151 racnode1 192.168.1.152 ...

题库重整

描述 TOJ由于在早期没有题目搜索功能,导致系统内出现了很多重复的题目,为了检查题目重复情况,crq需要统计出系统内哪些题目是重复的,现在就把这个任务交给你了. 输入输入数据有多组,每组数据的第1行 ...

select标签的兼容性问题解决

IE6是无论如何设置都是固定高度为22px不变的,而其他浏览器除safari都是支持height属性的,那么我们设置 height:22px.那么现在我们修正一下safari浏览器,我们发现仅有saf ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.