yarn container启动失败

在yarn资源管理的集群上运行spark程序，无法读取的数据多与少，都会报这个错误，但是其他程序在集群上能够正常运行。

16/11/14 00:13:44 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed: container_1478851289360_0032_01_000005 on host: gs-server-v-407. Exit status: 1. Diagnostics: Exception from container-launch.
Container id: container_1478851289360_0032_01_000005
Exit code: 1
Stack trace: ExitCodeException exitCode=1:
    at org.apache.hadoop.util.Shell.runCommand(Shell.java:578)
    at org.apache.hadoop.util.Shell.run(Shell.java:481)
    at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:763)
    at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:213)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

通过这个异常，很容易认为是yarn的配置出现了问题，但是无论num-executors和execute-memory设置多大，都是直接报这个错，为了分析那部分出现的问题，将spark程序功能注销，仅保留创建SparkContext语句，但是这次还是报这个错误，于是怀疑是sparkConfig配置有问题，sparkContext配置如下

 1 /**
 2     * 初始化 spark context
 3     * @param isLocal
 4     * @return
 5     */
 6   def initSparkContext(isLocal: Boolean): SparkContext = {
 7     val conf = new SparkConf().setAppName("redir_parser")
 8       .set("spark.executor.extraJavaOptions", "-XX:-OmitStackTraceInFastThrow;-XX:-UseGCOverheadLimit")
 9     return new SparkContext(conf)
10   }

通过调整和验证sparkConf参数，发现spark.executor。extraJavaOptions 如果设置了上述两项，则会报上述异常，如果去掉任意一个，则可以正常运行。

时间： 2024-11-03 21:57:00

yarn container启动失败的相关文章

YARN Container 启动流程分析

YARN Container 启动流程分析本文档从代码出发,分析了 YARN 中 Container 启动的整个过程,希望给出这个过程的一个整体的概念. 文档分为两个部分:第一部分是全局,从头至尾地把 Container 启动的整个流程串联起来:第二部分是细节,简要分析了 Container 启动流程中涉及到的服务.接口和类. 注意: 基于 hadoop-2.6.0 的代码只写了与 Container 启动相关的逻辑,并且还大量忽略了很多细节,目的是为了得到一个整体的概念. 为了让分析更具体

Java tomcat启动失败（Servlet3.0 Web Project）：A child container failed during start

Tomcat启动失败,失败全部信息: 五月 11, 2016 10:21:04 下午 org.apache.tomcat.util.digester.SetPropertiesRule begin 警告: [SetPropertiesRule]{Server/Service/Engine/Host/Context} Setting property 'source' to 'org.eclipse.jst.jee.server:MyEL' did not find a matching prop

Flink on Yarn模式启动流程分析

此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. Flink On Yarn 架构 Paste_Image.png 前提条件首先需要配置YARN_CONF_DIR, HADOOP_CONF_DIR ,HADOOP_CONF_PATH其中一个用来确保Flink能够访问HDFS和Yarn的RM. 主要启动流程 1. 启动进程首先我们通过下面的命令行启动flink on yarn的集群bin/yarn-session.sh -n 3 -jm 1024 -nm

Flink on Yarn模式启动流程源代码分析

此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. Flink on yarn的启动流程可以参见前面的文章 Flink on Yarn启动流程,下面主要是从源码角度看下这个实现,可能有的地方理解有误,请给予指正,多谢. --> 1.命令行启动yarn session bin/yarn-session.sh -n 3 -jm 1024 -nm 1024 -st我们去看下启动脚本 $JAVA_RUN $JVM_ARGS -classpath "$CC_

Tomcat因项目迁移，启动窗口一闪而过，启动失败的解决办法。

笔者手动部署一个web项目到Tomcat/webapps/目录下,成功运行.后来,项目结束,我把webapps下的姓项目文件夹删除.重启Tomcat时,运行...\apache-tomcat-8.5.41\bin\startup.bat发现启动出窗口(黑色命令行窗口)一闪而过,tomcat启动失败,无法启动. 先可以查看Tomcat本地日志信息, 日志信息的格式: catalina.YYYY-MM-DD.log YYYY-MM-DD 是当天的日期.我的...\apache-tomcat-8.5.

eclipse Tomcat 服务器启动失败（错误500容易疏忽的改错处）

因为电脑重装的原因,我打开eclipse打算启动tomcat的时候启动失败了 Server Tomcat v7.0 Server at localhost failed to start. 严重: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.LifecycleException: Failed to start component 上网查找了解

Mongodb分片配置服务器不同步导致mongos进程启动失败

生产环境中,使用的mongodb分片,由于突然断电,服务再起来的时候发现三个mongos进程中有一个启动失败,多次尝试仍不能启动.查看日志,内容如下: 大概意思是配置服务器configserver数据不同步. 解决办法: 杀死所有mongos进程连接到每个分片的configserver,运行命令db.runCommand('dbhash') 找到MD5值,这时两个能正常运行的MD5值是一样的,不能正常运行的MD5和上面俩都不一样删除不能正常运行的dbpath,将能正常运行的dbpath下的数

多学一点（十三）——解决Linux kdump服务启动失败

kdump 是 Linux Kernel 崩溃时的转储机制,简单理解就是在系统启动过程中如果 Kernel 因为某些原因崩溃了,kdump 就会负责记录日志以便排查原因.在 CentOS 6 等 Linux 发行版中,即便采用最小化安装, kdump 也会作为服务安装到系统中,此时可能因为我们对 Linux分配的内存的限制导致 kdump 服务开机启动失败,如图 1 所示: 图-1 kdump启动失败解决 kdump 启动失败其实很简单,只要修改 grub.conf 文件,改变crashker

ORA-01078和LRM-00109问题导致ORACLE启动失败解决方法

操作环境 SuSE11 + ORACLE11gR2(11.2.0.3) 问题现象新安装ORACLE启动失败,提示ORA-01078和LRM-00109错误.具体错误现象如下 SQL> startup ORA-01078: failure in processing system parameters LRM-00109: could not open parameter file '/home/oracle/base/dbs/initora11g.ora' 问题分析根据错误分析是查找不到参