cdh4.1.2 hadoop和oozie集成问题

1.异常信息例如以下:

Caused by: com.google.protobuf.ServiceException: java.net.ConnectException: Call From slave4/10.95.3.65 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

后来通过调试和跟踪hadoop源码,发现oozie在提交任务后确实会去连接jobhistory,

开到debug模式后,在org.apache.hadoop.mapred.ClientCache,这个类的:

protected MRClientProtocol instantiateHistoryProxy()

throws IOException {

final String serviceAddr = conf.get(JHAdminConfig.MR_HISTORY_ADDRESS);

if (StringUtils.isEmpty(serviceAddr)) {

return null;

}

LOG.debug("Connecting to HistoryServer at: " + serviceAddr);

final YarnRPC rpc = YarnRPC.create(conf);

LOG.debug("Connected to HistoryServer at: " + serviceAddr);

UserGroupInformation currentUser = UserGroupInformation.getCurrentUser();

return currentUser.doAs(new PrivilegedAction<MRClientProtocol>() {

@Override

public MRClientProtocol run() {

return (MRClientProtocol) rpc.getProxy(HSClientProtocol.class,

NetUtils.createSocketAddr(serviceAddr), conf);

}

});

}

通过上面的代码能够知道确实连接了HistoryServer,因此我通过命令

mr-jobhistory-daemon.sh start historyserver 把这个服务启动,这样在NN上会启动JobHistoryServer进程,这个进程的监听port就是10020,本以为这样这个问题就能攻克了,没想到在oozie的log日志里还是报上面的错,唯一可能的原因是oozie没有读取到 jobhistory的配置, 因此我把这个配置:

<property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

又在oozie/conf/hadoop-conf/core-site.xml文件里又加入了一遍,上述错误就消失了,job也能正常跑起来了。

2. oozie安装好了,提交任务的时候总是报Caused by: org.apache.openjpa.lib.jdbc.ReportingSQLException: Data truncation: Data too long for column ‘proto_action_conf‘ at row 1 {prepstmnt 184665592 INSERT INTO WF_JOBS (id, app_name, app_path, conf, group_name, parent_id, run,
user_name, bean_type, auth_token, created_time, end_time, external_id, last_modified_time, log_token, proto_action_conf, sla_xml, start_time, status, wf_instance) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?) [params=?, ?, ?, ?, ?, ?,
?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?]} [code=1406, state=22001]

经过搜索,wf_jobs中的proto_action_conf这个字段存储的是工作流中workflow.xml的内容,默认oozie创建元数据表的时候此字段类型为text(mysql),此种类型为最大长度为

65536字符的text列,所以有时无法容纳workflow.xml的内容,须要将其改为LONGTEXT类型,改后就好了。


cdh4.1.2 hadoop和oozie集成问题

时间: 2024-08-26 18:01:43

cdh4.1.2 hadoop和oozie集成问题的相关文章

hadoop之oozie配置

说明 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的.在Hadoop生态圈中,Oozie它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务. 原理 Oozie是一种Java Web应用程序,它运行在Java servlet容器--即Tomcat--中,并使用数据库来存储以下内容: 工作流定义 当前运行的工作流实例,包括实例的状态和变量 Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyc

MapReduce 编程 系列十二 用Hadoop Streaming技术集成newLISP脚本

本文环境和之前的Hadoop 1.x不同,是在Hadoop 2.x环境下测试.功能和前面的日志处理程序一样. 第一个newLISP脚本,起到mapper的作用,在stdin中读取文本数据,将did作为key, value为1,然后将结果输出到stdout 第二个newLISP脚本,起到reducer的作用,在stdin中读取<key, values>, key是dic, values是所有的value,简单对value求和后,写到stdout中 最后应该可以在HDFS下看到结果. 用脚本编程的

【原】centos6.5下hadoop cdh4.6 安装

1.架构准备: namenode 10.0.0.2 secondnamenode 10.0.0.3 datanode1 10.0.0.4 datanode2 10.0.0.6 datanode3 10.0.0.11 2.安装用户:cloud-user 3.[namenode]namenode到其他节点ssh无密码登录: ssh-keygen     (一路回车) ssh-copy-id [email protected]3 ssh-copy-id [email protected]4 ssh-c

高可用Hadoop平台-Oozie工作流

1.概述 在开发Hadoop的相关应用使用,在业务不复杂,任务不多的情况下,我们可以直接使用Crontab去完成相关应用的调度.今天给大家介绍的是统一管理各种调度任务的系统,下面为今天分享的内容目录: 内容介绍 Oozie Server 截图预览 下面开始今天的内容分享. 2.内容介绍 今天的内容不涉及Oozie的具体细节操作,它的工作流程在下一篇博客为大家详细介绍.今天主要给大家分享Oozie的作用,它的集成步骤等内容. 2.1 作用 Oozie它是一个开源的工作流调度系统,它可以管理逻辑复杂

【原】centos6.5下cdh4.6 Oozie安装

0.oozie只需安装在一台服务器上,这里选择在namenode上来安装:安装用户为cloud-user 1.安装Oozie包: sudo yum install -y oozie oozie-client 2.对于yarn来说,需要修改/etc/oozie/conf/oozie-env.sh中: CATALINA_BASE=/usr/lib/oozie/oozie-server 3.配置mysql: yum install -y mysql-server 创建数据库: mysql -u roo

Alex 的 Hadoop 菜鸟教程: 第20课 工作流引擎 Oozie

本文基于 Centos6.x + CDH5.x Oozie是什么 简单的说Oozie是一个工作流引擎.只不过它是一个基于Hadoop的工作流引擎,在实际工作中,遇到对数据进行一连串的操作的时候很实用,不需要自己写一些处理代码了,只需要定义好各个action,然后把他们串在一个工作流里面就可以自动执行了.对于大数据的分析工作非常有用 安装Oozie Oozie分为服务端和客户端,我现在选择host1作为服务端,host2作为客户端. 所以在host1上运行 yum install oozie 在h

Ubuntu14.04用apt安装CDH5.1.2[Apache Hadoop 2.3.0]

--------------------------------------- 博文作者:迦壹 博客名称:Ubuntu14.04用apt安装CDH5.1.2[Apache Hadoop 2.3.0] 博客地址:http://idoall.org/home.php?mod=space&uid=1&do=blog&id=558 转载声明:可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作! -----------------------------------

思数云hadoop目录

全文检索.数据分析挖掘.推荐系统.广告系统.图像识别.海量存储.快速查询 l Hadoop介绍 n Hadoop来源与历史 n Hadoop版本 n Hadoop开源与商业 l HDFS系统架构 n NameNode功能与原理 n DataNode功能与原理 n SecondaryNameNode功能与原理 n HDFS读取写入流程 n 理解HDFS Block l Hadoop权限与安全 l Hadoop运行模式介绍 l 实验: n 搭建单机版.伪分布式.分布式集群 n Hadoop命令使用

Hadoop生态圈介绍及入门(转)

本帖最后由 howtodown 于 2015-4-2 23:15 编辑 问题导读 1.Hadoop生态圈介绍了哪些组件,分别都是什么? 2.大数据与Hadoop是什么关系? 本章主要内容: 理解大数据的挑战 了解Hadoop生态圈 了解Hadoop发行版 使用基于Hadoop的企业级应用 你可能听别人说过,我们生活在“大数据”的环境中.技术驱动着当今世界的发展,计算能力飞速增长,电子设备越来越普遍,因特网越来越容易接入,与此同时,比以往任何时候都多的数据正在被传输和收集. 企业正在以惊人的速度产