SPARK启动历史任务查看

SPARK历史任务查看需要一下配置:

  1. 修改spark-defaults.conf配置文件

    1. spark.eventLog.enabled             true
    2. spark.eventLog.dir                       hdfs://192.168.9.110:9000/eventLogs
    3. spark.eventLog.compress          true
  2. 修改spark-env.sh配置文件
    1. export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://DEV-HADOOP-01:9000/sparkHistoryLogs"
  3. 以上两个配置中spark.eventLog.dir和SPARK_HISTORY_OPTS都用到了hdfs来存储历史任务的日志信息.所以需要提前在hdfs中新建这两个目录 hdfs://192.168.9.110:9000/eventLogs和hdfs://DEV-HADOOP-01:9000/sparkHistoryLogs
    1. 进入hadoop的bin目录 命令 :  cd /data/server/hadoop-2.6.0/bin
    2. 新建hdfs://192.168.9.110:9000/eventLogs命令 : ./hadoop dfs -mkdir /eventLogs
    3. 新建hdfs://DEV-HADOOP-01:9000/sparkHistoryLogs命令 : ./hadoop dfs -mkdir /sparkHistoryLogs
  4. 重启spark集群
  5. 启动历史任务进程
    1. sbin/start-history-server.sh
  6. 历史任务进程启动验证
    1. 执行jps命令,出现HistoryServer进程
  7. 查看历史任务Web UI
    1. http://192.168.9.110:18080/
时间: 2024-12-16 06:34:04

SPARK启动历史任务查看的相关文章

Spark 启动历史任务记录进程,报错 Logging directory must be specified解决

最近在自己电脑上装了Spark 单机运行模式,Spark 启动没有任何问题,可是启动spark history时,一直报错,错误信息如下: Spark assembly has been built with Hive, including Datanucleus jars on classpath Spark Command: /usr/local/java/jdk1.7.0_67/bin/java -cp ::/usr/local/spark/conf:/usr/local/spark/li

spark 启动job的流程分析

从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defmain(args : Array[String]) { valsc = newSparkContext(args(0),"wordco

spark 累加历史+统计全部

spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1  应用场景: 1.我们需要统计用户的总使用时长(累加历史) 2.前台展现页面需要对多个维度进行查询,如:产品.地区等等 2 原始数据: product_code |event_date |duration | -------------|-----------|---------| 1438 |2016-05-13 |165 | 1438 |2016-05-14 |595 | 1438 |2016-05-15

spark启动后出现“JAVA_HOME not set” 异常和"org.apache.hadoop.security.AccessControlException"异常

/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh 启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master01:8080/ 到此为止,Spark集群安装完毕. 1.注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置: export JAVA_

mysql的命令历史如何查看

有时,我们在linux服务器通过mysql连接指令登陆数据库,然后运行一些命令或查询sql,之后我们按键盘向上方向键会一一列出来.如何查看命令历史呢,就像在linux下的shell中查看shell命令历史.mysql 有这样一个机制,就是,在用户的主目录下会生成一个.mysql_history 的文件,这个文件会记录用户登录mysql后,在mysql中敲过的每条命令.cat  ~/.mysql_history 即可以看到以前的命令历史.

centos6.9 上docker 的安装 及启动 和运行状态查看

安装dockeryum install docker-io yum install device-mapper-event-libsyum upgrade device-mapper-libs 启动docker/etc/init.d/docker restart 查看docker的运行状态/etc/init.d/docker status 原文地址:http://blog.51cto.com/quietnight/2107901

Zookeeper群起脚本启动失败及查看状态出现:Error contacting service. It is probably not running

1.问题: 群起脚本启动后查看jps没有出现:QuorumPeerMain Zookeeper正常启动但是群起脚本查状态出现:Error contacting service. It is probably not running错误 ZooKeeper JMX enabled by default Using config: /opt/module/zookeeper-3.4.10/bin/../conf/zoo.cfg Error contacting service. It is prob

Spark启动流程(Standalone)-分析

1.start-all.sh脚本,实际上执行java -cp Master 和 java -cp Worker 2.Master 启动时首先穿件一个RpcEnv对象,负责管理所有通信逻辑 3.Master 通信RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worker可以与其进行通信 4.Worker启动时也是创建一个RpcEnv对象 5.Worker通过RpcEnv对象创建一个Endpoint 6.Worker 通过RpcEnv对象建立到Master的连接 ,

Spark启动流程(Standalone)- master源码

Master源码 1 package org.apache.spark.deploy.master 2 //伴生类 3 private[deploy] class Master( 4 override val rpcEnv: RpcEnv, 5 address: RpcAddress, 6 webUiPort: Int, 7 val securityMgr: SecurityManager, 8 val conf: SparkConf) 9 extends ThreadSafeRpcEndpoi