Oozie协作框架

Oozie协作框架

一:概述

1.大数据协作框架

  

2.Hadoop的任务调度

  

3.Oozie的三大功能

  Oozie Workflow jobs

  Oozie Coordinator jobs

  Oozie Bundle

4.Oozie的架构

  控制流节点

    起始,分支,并发,汇合,结束

  动作节点action

5.Oozie的实现

  

二:安装部署

1.上传

  

2.解压

  

3.配置Hadoop代理core-site.xml

  

4.启动Hadoop集群

5.解压hadooplib

  将会生成:oozie-4.0.0-cdh5.3.6

   

6.生成

  

7.创建libext文件

  

8.拷贝hadooplib的jar包到libext中

  

9.拷贝js包到libext中

  

10.创建sharelib库:HDFS,用于运行所有job的依赖

  bin/oozie-setup.sh sharelib create -fs hdfs://hadoop-senior02.ibeifeng.com:8020 -locallib oozie-sharelib-4.0.0-cdh5.3.6-yarn.tar.gz

  

  HDFS::

  

11.打包

  bin/oozie-setup.sh prepare-war

  

12.初始化数据库

  

  

13.启动

  

14.web端窗口

  

三:运行官网的任务流

1.解压家目录下的oozie-examples.tar.gz

  将会生成examples

2.进入examples,找到将要运行的mapreduce项目

  job.properties:mapreduce运行需要的配置项,指定workflow的地址,申明相关变量

  workflow.xml:实际运行的workflow

  

3.修改job.properties配置项

  

4.修改oozie.site文件

  

5.启动hadoop,并上传在家目录下examples项目

  bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/examples examples

  

6.启动

  bin/oozie  job -oozie http://linux-hadoop3.ibeifeng.com:11000/oozie -config examples/apps/map-reduce/job.properties -run

  

7.总结

  -》bin/oozie job -oozie http://hadoop-senior02.ibeifeng.com:11000/oozie -config examples/apps/map-reduce/job.properties -run

  提交任务

  -》oozie读取job.properties
  -》查找需要运行的wf的地址,将相应变量传递给wf
  -》读取wf的文件
    -》start节点
    -》action节点
    -》OK-》end
    -》error-》kill
  -》读取依赖的jar包
     lib目录
  -》sharelib的jar包支持

四:自定义wordcount任务流

1.新建目录

  新建application,在下面建项目wc-wf

  

2.检测wordcount的jar包是否可以使用

 

3.HDFS上新建input目录,上传wc.inpu

  

4.上传wc2.jar

  目录/etc/opt/datas

5.在yarn上运行

  

6.证明jar包没有问题

  

7.修改job.properties

  

8.修改workflow.xml

  

  

  

9.上传wc2.jar到wc-wf中的lib中

  

10.上传到HDFS上运行

   bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/wc-wf/ /

11.运行

  export OOZIE_URL="http://linux-hadoop3.ibeifeng.com:11000/oozie"

  bin/oozie  job  -config applications/wc-wf/job.properties -run

  

12.结果

  

五:自定义shell action的workflow

1.拷贝官方的shell,并命名为shell-wf

  

2.修改job.properties

  

3.在shell-wf中新建oozie.sh

  

4.修改workflow.xml

  

5.完成oozie.sh

  

6.上传到HDFS

  bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/shell-wf/ /applications

7.运行

  bin/oozie job -config applications/shell-wf/job.properties -run

8.结果

  

六:DAG图的设计

1.拷贝wc-wf,并该名为dag-wf

  

2.将shell-wf中 的.sh拷贝到dag-wf中

  

3.修改job.properties

  

4.修改oozie.sh

  

5.修改workflow.xml

  

6.上传

  bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/dag-wf/ /applications

7.运行

  bin/oozie job -config applications/dag-wf/job.properties -run

8.结果

  

9.HDFS上

  

七:修改linux时区

1.查看

  

2.如果不是+0800,则需要重新生成

  在linux中删除:

    rm -rf /etc/localtime

  重新生成:

    ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3.修改时间

  

4.在oozie.site中修改时区

  

5.在js中修改时区

  

6.重新启动oozie

八:编写coordinate

1.复制

  

2.修改job.properties

  

3.修改coordinator.xml

  

4.修改oozie.xml

  

5.重启oozie

6.上传到HDFS

   bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/cron-wf/ /applications

7.运行

  bin/oozie job -config applications/cron-wf/job.properties -run

8.结果

  

  

九:支持crontab的任务调度

1.拷贝

  

2.修改job.properties

  

3.修改coordinate

  

4.上传

  bin/hdfs dfs -put /etc/opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/applications/crontab/ /applications

5.运行

  bin/oozie  job  -config applications/crontab/job.properties -run

6.运行结果

  

  

时间: 2024-10-21 11:41:01

Oozie协作框架的相关文章

Flume协作框架

Flume协作框架 1.概述 ->flume的三大功能 collecting, aggregating, and moving  收集 聚合 移动 2.框图 3.架构特点 ->on streaming data flows 基于流式的数据 数据流:job->不断获取数据 任务流:job1->job2->job3&job4 ->for online analytic application. ->Flume仅仅运行在linux环境下 如果我的日志服务器是Wi

作业流 oozie调度框架的配置与使用(一)

一: 常见的调度框架 一: oozie 概述与功能 二: oozie 安装与配置 一: 常见的作用调度框架 1.1 linux 下面的计划任务 在工作量比较下的情况下 使用linux 下的crond 使用定制计划任务 * * * * * 后面接调度 job 的命令 分 时 日 月 周 hive -e " " 执行一个sql 命令 hive -f " " 执行一个sql 脚本 结合 crond 使用 1.2 常见的协作调度框架: 1.2.1 Azkaban 框架 参考

Hue协作框架

一:框架 1.支持的框架 ->job ->yarn ->mr1 ->oozie ->HDFS ->查文件 ->文件的管理 ->增删改查 ->hive ->rdbms 二:安装 1.下载hue包 2.需要安装的依赖 3.检测依赖 4.安装依赖包 sudo yum install ant asciidoc cyrus-sasl-devel  libtidy   libxml2-devel  libxslt-devel mvn mysql-devel

大数据协作框架

Sqoop http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_introduction 原文地址:https://www.cnblogs.com/tianboblog/p/9064524.html

【Hadoop 分布式部署 九:分布式协作框架Zookeeper架构 分布式安装部署 】

1.首先将运行在本地上的  zookeeper 给停止掉 2.到/opt/softwares 目录下  将  zookeeper解压到  /opt/app 目录下 命令:  tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/app/ 3.修改配置文件 将文件   zoo_sample.cfg   重命名为   zoo.cfg 创建文件目录    mkdir -p data/zkData       完整的路径:/opt/app/zookeeper-3.4.5/da

作业流调度框架 oozie 使用 (二)

oozie 任务调度处理 标签(空格分隔): 协作框架 一:oozie example 运行任务调度案例 二:oozie 运行自定的mapreduce 的jar 包 三:oozie 调度shell 脚本 四:oozie 的coordinator 周期性调度当前任务 一: 运行oozie example 案例 1.1 解压exmaple包 解压example 包 tar -zxvf oozie-examples.tar.gz cd /home/hadoop/yangyang/oozie/examp

Sqoop框架基础

Sqoop框架基础 本节我们主要需要了解的是大数据的一些协作框架,也是属于Hadoop生态系统或周边的内容,比如: ** 数据转换工具:Sqoop ** 文件收集库框架:Flume ** 任务调度框架:Oozie ** 大数据Web工具:Hue 这些框架为什么成为主流,请自行百度谷歌,此处不再赘述. * CDH版本框架 Cloudera公司发布的CDH版本,在国内,很多大公司仍在使用,比如:一号店,京东,淘宝,百度等等.Cloudera公司发布的每一个CDH版本,其中一个最大的好处就是,帮我们解

大数据?这些你了解吗?(新手)

一.学习大数据需要的基础 java SE,EE(SSM)        90%的大数据框架都是java写的    MySQL        SQL on Hadoop    Linux        大数据的框架安装在Linux操作系统上 二.需要学什么 第一方面:大数据离线分析 一般处理T+1数据            Hadoop 2.X:(common.HDFS.MapReduce.YARN)                环境搭建,处理数据的思想            Hive:    

大数据怎么学习,在学习大数据之前,需要具备什么基础?

大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生.IT.金融.农业.通信等方面都有广泛应用.未来5年大数据行业呈井喷趋势,人才需求火爆,2018年大数据人才缺口更是高达900万.以后想要做大数据相关的工作,需要学习哪些技术知识? 罗马不是一天建成的,大数据工程师也不是短时间能锻造的.想要成为大数据开发工程师,也要看你是否骨骼惊奇,天赋过人!在学习大数据之前,你还需要有一定的基础!大数据学习资料分享群119599574 一.学习大数据需要的基础 1.java SE.EE(SS