《OD学Oozie》20160807Oozie

一、引入

MapReduce Job

Hive 脚本任务

同一个业务:先后、定时调度

工作流: 定义工作流程

activity

jbpm

oozie: 大数据工作流定义与调度框架

专门定义与调度MapReduce Job工作流程

拓展:shell、hive、sqoop、hdfs

oozie演变过程:

v1 Workflow 工作流定义

v2 Coordinator 调度

  基于时间、基于数据集是否可用

v3 bundle 将某些相关的Cordinator集成在一块

时间: 2024-08-11 09:53:31

《OD学Oozie》20160807Oozie的相关文章

《OD学hadoop》第三周0709

一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key

《OD学hadoop》mac下使用VMware Fusion安装centos

一. NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 lo0: flags=8049<UP,LOOPBACK,RUNNING,MULTICAST> mtu 16384 options=3<RXCSUM,TXCSUM> inet6 ::1 prefixlen 128 inet 127.0.0.1 netmask 0xff000000 inet6 fe80::1%lo0 prefixlen 64 sco

《OD学微信开发》微信小程序入门示例

官网地址: https://mp.weixin.qq.com/debug/wxadoc/dev/ 一.文件结构 小程序包含一个描述整体程序的 app 和多个描述各自页面的 page. .js后缀的是脚本文件 .json后缀的文件是配置文件 .wxss后缀的是样式表文件 wxopen-002 一个小程序主体部分由三个文件组成,必须放在项目的根目录,如下: 1. app.js app.js是小程序的脚本代码.我们可以在这个文件中监听并处理小程序的生命周期函数.声明全局变量.调用框架提供的丰富的 AP

《OD学hadoop》第一周0625 LINUX作业一:Linux系统基本命令(一)

1. 1) vim /etc/udev/rules.d/70-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAM

《OD学spark》20160924scala基础

拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握

《OD学hadoop》20160910某旅游网项目实战

一.event事件分析 叶子节点只计算一次 父节点的触发次数由子节点的数量节点 事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上. 目标:以事件流为单位,分析事件流中各个事件的触发次数 事件流特征: 1.事件流中每一个事件都会存在一个来源/父事件 计算方式: 1. 不考虑事件流的关系,直接计算各个事件的触发次数(wordcount) 2. 考虑事件流,计算事件流中的各个事件的触发次数 区分 1.uuid,不同访客的事件流不在一起处理: 不同人产生的事件

《OD学HBase》20160821

一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较短  128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片  GC清理 -->进程停顿 当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral

《OD学Hive》第五周20160730

一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> <value>10000</value> <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</

《OD学hadoop》第一周0626

一. 二. 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc/udev/rules.d/70-persistent-net.rules eth1 改为eth0 (2)vi /etc/sysconfig/network-scripts/ifcfg-eth0 HWADDR改为eth1的地址 HWADDR=00:0c:29:79:e6:ec 八.安装jdk modules 装好的软件 software 安装软件 (1)解压jdk tar -zxf file -C /opt/modules (