Spark-streaming stage夯住原因分析

现象

任务执行中偶现stage停止不动

但是我们点进去查看任务的时候发现，任务状态是SUCCESSED的

查看日志发现有ERROR和WARN报出

17/03/28 10:56:19 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one of the SparkListeners is too slow and cannot keep up with the rate at which tasks are being started by the scheduler.

17/03/28 10:56:19 WARN LiveListenerBus: Dropped 1 SparkListenerEvents since Thu Jan 01 08:00:00 CST 1970

问题的原因

搜了一些关于消息队列的文章，在spark的jira中也查找到了相关的bug，确实在2.x版本的spark中存在因为LiveListenerBus消息队列的消息数量设置不当造成的bug，这个bug会影响webui中的展示，也会影响任务状态的判断。

终其原因是：当消息队列中的消息数超过其spark.scheduler.listenerbus.eventqueue.size设置的数量(如果没有设置,默认为10000)时，会将最新的消息移除，这些消息本来是通知任务运行状态的，由于你移除了，状态无法得到更新，所以会出现上面描述的现象

解决方式

在spark-submit中添加如下参数

--conf spark.scheduler.listenerbus.eventqueue.size=100000

来观察一下问题是否解决了

经过6个小时的试运行，没再出现夯住的现象。说明该参数的确解决了问题

时间： 2024-10-25 19:05:05

Spark-streaming stage夯住原因分析的相关文章

Spark Streaming中的操作函数分析

根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations Join Operations Output Operations 一.Transformations 1.map(func) map操作需要传入一个函数当做参数,具体调用形式为 val b = a.map(func) 主要作用是,对DStream对象a,将func函数作用到a中的每一个元素上并生成新

<Spark><Spark Streaming><作业分析>

Intro 这篇是对一个Spark (Streaming)作业的log进行分析.用来加深对Spark application运行过程,优化空间的各种理解. Here to Start 从我这个初学者写得一个Spark Streaming程序开始... package com.wttttt.spark /** * Created with IntelliJ IDEA. * Description: * Author: wttttt * Github: https://github.com/wttt

5.Spark Streaming流计算框架的运行流程源码分析2

1 spark streaming 程序代码实例代码如下: [html] view plain copy object OnlineTheTop3ItemForEachCategory2DB { def main(args: Array[String]){ val conf = new SparkConf() //创建SparkConf对象 //设置应用程序的名称,在程序运行的监控界面可以看到名称 conf.setAppName("OnlineTheTop3ItemForEachCategor

整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管.本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中. 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版本中已发生了一些变化,比如HA策略: 通过Spark Contributor.Spark布道者陈超我

Spark Streaming编程指南

本文基于Spark Streaming Programming Guide原文翻译, 加上一些自己的理解和小实验的结果. 一.概述 Spark Streaming是基于Core Spark API的可扩展,高吞吐量,并具有容错能力的用于处理实时数据流的一个组件.Spark Streaming可以接收各种数据源传递来的数据,比如Kafka, Flume, Kinesis或者TCP等,对接收到的数据还可以使用一些用高阶函数(比如map, reduce, join及window)进行封装的复杂算法做进

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中本地与虚拟机都要装了python才能运行重要代码: #coding=UTF-8 #数组最后一个没有"," url_paths = [ "class/128.html", "class

Spark Streaming数据限流简述

??Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理: ??流处理与批处理有明显区别,批处理中的数据有明显的边界.数据规模已知:而流处理数据流并没有边界,也未知数据规模: ??由于流处理的数据流特征,使之数据流具有不可预测性,而且数据处理的速率还与硬件.网络等资源有关,在这种情况下如不对源源不断进来的数据流速率进行限制,那当Spark节点故障.网络故障或数据处理吞吐量下来时还有数据不断流进来,那将有可能将出现OOM进而导致Spark

Spark源码系列（八）Spark Streaming实例分析

这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照<Spark Streaming编程指南>. Example代码分析 val ssc = new StreamingContext(sparkConf, Seconds(1)); // 获得一个DStream负责连接监听端口:地址 val lines = ssc.socketTextStream(serverIP, serverPort); // 对每一行数据执行Split操作 val words = line

(版本定制)第5课：基于案例分析Spark Streaming流计算框架的运行源码

本期内容: 1.在线动态计算分类最热门商品案例回顾与演示 2.基于案例分析Spark Streaming的运行源码第一部分案例: package com.dt.spark.sparkstreaming import com.robinspark.utils.ConnectionPoolimport org.apache.spark.SparkConfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.HiveConte

猜你喜欢

通过CLI命令使ESXi主机进入、退出维护模式

1.进入维护模式: 方法一:# vim-cmd /hostsvc/maintenance_mode_enter 方法二:# esxcli system maintenanceMode set --en ...

【读书笔记】《Linux内核设计与实现》内核同步介绍&内核同步方法

简要做个笔记,以备忘. 需同步的原因是,我们并发访问了共享资源.我们将访问或操作共享资源的代码段称"临界区",如果两个执行线程处于同一临界区中同时执行,称"竞争条件&qu ...

烦躁而无奈的一次调试-记fpga驱动ad9854

写这篇东西,主要还是要发泄心中之不爽,毕竟debug不出来很影响食欲和心情,也没心情陪妹纸了. 一个月前,师兄便开始带我fpga,先让我驱动个dds作为训练.由于暑假的原因,就停停放放的,在家先把VH ...

springsecurity基于数据库验证用户

之前的springsecurity程序都是将数据存放在内存中的,通过 1 <security:user-service> 2 <security:user name="us ...

CSS3高级

一.学习目标二.box-sizing属性语法:box-sizing: content-box|border-box|inherit box-sizing属性的用法: box-sizing属性可以为 ...

Java网络编程基础（六）— 基于TCP的NIO简单聊天系统

在Java网络编程基础(四)中提到了基于Socket的TCP/IP简单聊天系统实现了一个多客户端之间护法消息的简单聊天系统.其服务端采用了多线程来处理多个客户端的消息发送,并转发给目的用户.但是由于它 ...

【转】MySQL数据库主从同步管理

MYSQL主从同步架构是目前使用最多的数据库架构之一,尤其是负载比较大的网站,因此对于主从同步的管理也就显得非常重要,新手往往在出现主从同步错误的时候不知道如何入手,这篇文章就是根据自己的经验来详细叙 ...

最高检：不理在押人员申冤可追刑责

北京时间12日消息,据国外媒体报道,美国航空航天局(NASA)的一项新研究发现,过去数十年来南极海冰的增加并不足以抵消加速减少的北极海冰.整合两极的数据可以看到,全球海冰面积正以平均每年约35000平 ...

一份MAVEN的POM.XML文件样板

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...

文件“bin\Debug\WindowsFormsApplication2.exe”正由另一进程使用，因此该进程无法访问该文件。

http://zhidao.baidu.com/question/221394579.html?qbl=relate_question_2&word=%BE%AF%B8%E6%094%09%C ...

Hdu3397Sequence operation线段树

#include <cstdio> #include <cstring> #include <algorithm> #include <climits> ...

python中的datetime模块

Python提供了多个内置模块用于操作日期时间,像calendar,time,datetime.time模块我在之前的文章已经有所介绍,它提供的接口与C标准库time.h基本一致.相比于time模块, ...

天龙客户端的网络模块

网络在游戏引擎结构中处于底层,无论什么联网游戏都绕不开.网络层要实现的功能包括登录认证,连接服务器,收发消息包,断线检测,重连服务器等等.我原来的方案是封装Socket,开一个网络消息接收线程,用So ...

windows清除日志

wevtutil.exe cl "ACEEventLog"wevtutil.exe cl "Application"wevtutil.exe cl " ...

关于/etc/ld.so.conf

etc/ld.so.conf: 这个文件记录了编译时使用的动态链接库的路径. 默认情况下,编译器只会使用/lib和/usr/lib这两个目录下的库文件如果你安装了某些库,比如在安装gtk+-2.4. ...

Swift学习笔记（二十三）——Swift泛型初识

泛型的概念在Java中也是存在的,泛型可以使代码更为精炼,是对数据类型使用的一种优化.现在有一样的一个需求:写一个结构体,然后判断整型的是否相等.好,实现代码以及输出如下: . 如果此时又多了一个需求 ...

JavaScript 扫描枪使用（一）

JavaScript 扫描枪应用(一)com.js为主要的代码实现,test.html文件为测试的页面,其中包括了com.js文件中方法的调用.以下为测试成功代码:com.js //com.js /* ...

Eclipse下配置j2ee开发环境及与MySQL数据库的连接

Eclipse下配置j2ee开发环境 a.配置tomcat windows->perferences->server->server runtime environments-&g ...

ASP.NET MVC里ModelState.IsValid总是true或者总是false

model的属性如果不加验证相关的特性,ModelState.IsValid会永远为true:如果加了验证相关的特性,不满足验证规则时,ModelState.IsValid为false. 接收到参数属 ...

poj 3122 Pie 二分（最大化平均值）

Pie Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 11776 Accepted: 4076 Special Ju ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.