spark监控

一、背景

　　实习的时候做了一段时间php + web前端，然后入职的时候开始做基础运维（python）以及web前端，顺便写了一两个structs页面的后台代码（java），现在准备专职做spark相关业务（scala）。这些经历现在回想起来，真是乱如麻，当初是怎么扛下来的。

　　目前手上有10多台机器专门用于spark服务，准备接业务需求，需要做好相关监控，要是服务挂了，老板那不好过关。

二、监控项

　　1.端口监控

　　　　　目前使用的是spark on yarn，因此需要监控resource manage 以及 node manage，准备加上公司那套端口监控服务

　　2.application监控

　　　　　yarn提供一套rest api<详细链接>，基于这个API，我们可以通过脚本获得application运行的详细信息，目前尚未开发，这个星期内完成吧

　　3.机器基础监控

　　　　　这个不用详述，很多公司应该都有一套基础监控系统，监控诸如磁盘，负载，swap等情况

三、待定

　这个帖子尚未写完，后续完成监控部署之后再来进行详细补充

时间： 2024-12-28 17:51:41

spark监控的相关文章

spark监控入门

前言 Spark作为计算引擎每天承载了大量的计算任务,为了监控集群的资源使用情况,对spark的监控也在所难免,Spark的监控有3个入口,1. Rest; 2.另一个是Metrics; 3. Log. Rest 参考spark的rest接口文档 http://spark.apache.org/docs/latest/monitoring.html spark支持把每个计算实例的执行信息写到hdfs,然后通过historyserver或者自己去hdfs上找到文件解析出来.数据包括spark执行关

spark监控调优

一.Spark运行时架构: Spark分布式结构采取主/从结构模式.主是驱动器(Driver)节点,这个节点负责中央协调,调度各个工作(执行器executor)节点. 从是执行器(executor)节点. Spark驱动器节点和执行器节点统称为Spark应用.Spark应用通过集群管理器在集群的机器上启动. 二.驱动器和执行器的任务: 驱动器任务:负责运行组成Spark作业的任务: 执行器任务:为要求缓存的RDD提供内存式存储. 三.集群管理器 Cluster Manager可以用来启动驱动

【Spark学习】Apache Spark监控与测量

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137952.html

Spark Web UI 监控详解

Spark集群环境配置我们有2个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上.每个Executor可使用的核数为2,可用的内存为2g,集群中所有Executor最大可用核数为4. conf/spark-defaults.conf 部分参数配置如下: spark.master spark://Master:7077 spark.executor.memory 2g spark.executor.cores 2 spark.co

Hadoop监控分析工具Dr.Elephant

公司基础架构这边想提取慢作业和获悉资源浪费的情况,所以装个dr elephant看看.LinkIn开源的系统,可以对基于yarn的mr和spark作业进行性能分析和调优建议. DRE大部分基于java开发,spark监控部分使用scala开发,使用play堆栈式框架.这是一个类似Python里面Django的框架,基于java?scala?没太细了解,直接下来就能用,需要java1.8以上. prerequest list: Java 1.8 PlayFramework+activator No

大数据实时处理-基于Spark的大数据实时处理及应用技术培训

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark.Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,顶级的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS.H

Spark笔记——技术点汇总

目录 · 概况 · 手工搭建集群 · 引言 · 安装Scala · 配置文件 · 启动与测试 · 应用部署 · 部署架构 · 应用程序部署 · 核心原理 · RDD概念 · RDD核心组成 · RDD依赖关系 · DAG图 · RDD故障恢复机制 · Standalone模式的Spark架构 · YARN模式的Spark架构 · 应用程序资源构建 · API · WordCount示例 · RDD构建 · RDD缓存与持久化 · RDD分区数 · 共享变量 · RDD Operation · R

Spark性能测试报告与调优参数

1.代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0),x)).countByKey();或进行reduceByKey,效率会提高3倍. 2.parquet存储的文件格式查询会比sequenceFile快两倍以上,当然这是在select * from的

Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具.但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的