Spark的Straggler深入学习（1）：如何在本地图形监控远程Spark的GC情况——使用java自带的jvisualvm

一、本文的目的

Straggler是目前研究的热点，Spark中也存在Straggler的问题。GC问题是总所周知的导致Straggler的重要因素之一，为了了解GC导致的Straggler问题，首先需要学习GC问题以及如何监控Spark的GC。GC问题的讨论比较多了，推荐一篇系列文章用于学习：成为Java的GC专家。

二、本文所需工具

本文所需工具很简单，基本不用下载。监控GC的前提是：

1、已经在集群上安装了Spark并可以正常提交作业；

2、本地装有jdk1.6以上版本。

本文实际使用的工具是：java自带的jvisualvm。

三、配置jvisualvm

1、远程集群：需要简单配置并启动jstatd。方法比较简单，共两步：

i. 在JAVA_HOME的bin目录下新建一个jstatd.all.policy的文件，文件内容为：

grant codebase "file:${java.home}/../lib/tools.jar" {
  permission java.security.AllPermission;
};

ii. 执行：jstatd -J-Djava.security.policy=jstatd.all.policy -J-Djava.rmi.server.hostname=yourip。

将命令中的yourip替换成Spark的master所在的node的地址，该地址也是jvisualvm需要连接的地址。确保不会报RMI和Connect的错误。

2、本地主机：无需配置，启动jvisualvm即可。

在jvisualvm中新建远程主机，IP地址为之前填写的地址，使用jstatd连接，默认端口1099。然后就可以看到远程运行的jvm虚拟机了。

四、监控

1、在jvisualvm的“工具”选项中的插件一栏下载Visual GC插件，然后就可以看到虚拟机的监控页面多出一栏GC监控。

2、在集群上通过Spark submit提交一个应用，本地就可以监控到了，双击查看其信息。

3、监控到的截图如下：

时间： 2024-12-20 01:06:37

Spark的Straggler深入学习（1）：如何在本地图形监控远程Spark的GC情况——使用java自带的jvisualvm的相关文章

Spark的Straggler深入学习（2）：思考Block和Partition的划分问题——以论文为参考

一.partition的划分问题如何划分partition对block数据的收集有很大影响.如果需要根据block来加速task的执行,partition应该满足什么条件? 参考思路1:range partition 1.出处: IBM DB2 BLU:Google PowerDrill:Shark on HDFS 2.规则: range partition遵循三个原则:1.针对每一列进行细粒度的范围细分,防止数据倾斜和工作量倾斜:2.每一个partition分配的列是不同的:3.需要针对数据

Spark随机森林实现学习

前言最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样.单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间.本文整理spark随机森林实现中的相关技巧,方便后面回顾. ? 随机森林算法概要随机森林算法的详细实现和细节,可以参考论文Breiman 2001.这里简单说说大体思路,方便理解代码. 随机森林是一个组装(ensemble mod

这是一套Java菜鸟到大牛的学习路线之高级教程，由工作了10年的资深Java架构师整理。

这是一套Java菜鸟到大牛的学习路线之高级教程,由工作了10年的资深Java架构师整理. 01-java高级架构师设计-基础深入 J2SE深入讲解 Java多线程与并发库高级应用视频教程下载 java反射机制 java设计模式视频数据结构视频教程 Eclipse视频教程.zip MyEclipse视频教程.zip 02-java高级架构师设计-JavaEE拓展 A

基于spark排序的一种更廉价的实现方案-附基于spark的性能测试

排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个"刚需",无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的. 有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序上进行巨大的投入,可见排序速度的高低有多么重要!但是对于大多数企业来说,动辄上亿的硬件投入,实在划不来.甚至远

(转)HTML5开发学习（2）:本地存储之localStorage 、sessionStorage、globalStorage

原文:http://www.cnblogs.com/xumingxiang/archive/2012/03/25/2416386.html HTML5开发学习(2):本地存储之localStorage .sessionStorage.globalStorage Posted on 2012-03-25 11:23 祥叔阅读(2) 评论(0) 编辑收藏 HTML5 提供了四种在客户端存储数据的新方法,即 localStorage .sessionStorage.globalStorage

java学习中，接口的使用（重要，常用知识点）（java 学习中的小记录）

java学习中,接口的使用(重要,常用知识点)(java 学习中的小记录)作者:王可利(Star·星星) 接口(功能:用来添加拓展功能的) 例子:铅笔.带橡皮檫的铅笔. 两个功能: 1.写字......> 铅笔 2.擦字......> 橡皮擦想法:定义一个铅笔类,定义一个橡皮擦类,定义一个带橡皮擦的铅笔类继承铅笔类和橡皮擦类但是java是单继承的.于是就有了解决的方法:接口(可以添加拓展功能) 如:一个铅笔类,给它添加一个接口给它一个拓展类(橡皮擦类) 接口的定义模式用

从零开始，手把手教会你5分钟用SPARK对PM2.5数据进行分析（包括环境准备和SPARK代码）

要从零开始,五分钟做完一个基于SPARK的PM2.5分析项目,你是不是会问 1. PM2.5的数据在哪里? 2. SPARK的环境哪儿有? 3. 程序怎么编? 不用急,跟着我做,5分钟就可以从零开始完成所有的事情. 准备SPARK环境今天,在各种公有云都可能申请到SPARK的环境.但彻底免费,启动最容易的是在超能云(SuperVessel)上面的SPARK服务,完全免费. 首先登录超能云主页 http://www.ptopenlab.com . 如果你之前没有申请过帐号,可以直接申请.新申请的

(转)HTML5开发学习（3）:本地存储之Web Sql Database

原文:http://www.cnblogs.com/xumingxiang/archive/2012/03/25/2416386.html HTML5开发学习(3):本地存储之Web Sql Database(附源码) Posted on 2012-03-25 14:03 祥叔阅读(0) 评论(0) 编辑收藏接着上一篇,这节介绍Html5 本地存储中的一个很重要的概念--Web Sql Database ,正因为本人觉得这个很重要,所有独立出来重点介绍.即时你完全没听说过这个概念,望文生

Spark大数据的学习历程

Spark主要的编程语言是Scala,选择Scala是因为它的简洁性(Scala可以很方便在交互式下使用)和性能(JVM上的静态强类型语言).Spark支持Java编程,但对于使用Java就没有了Spark-Shell这样方便的工具,其它与Scala编程是一样的,因为都是JVM上的语言,Scala与Java可以互操作,Java编程接口其实就是对Scala的封装. 大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿