newlisp跟踪jobtracker状态

基本思路，通过newlisp定时下载jobtracker页面，用正则表达式解析html中的table元素，然后获得最新的mapreduce的状态。

每次获得状态数据后，存入mysql数据库，然后用tableau将mapreduce集群状态用报表呈现。

这是jobtracker站点的数据

这是Tableau绘制的报表

这样就可以用数据可视化的方式展示Hadoop集群计算的压力状态。

下面是newlisp代码，主要就是用正则表达式解析html,用mysql模块写入数据库。

#!/usr/bin/newlisp
(load "mysql.lsp")

(define (check-args)
  (print "args: ")
  (println (main-args))
  (set ‘args-length (length (main-args)))
  (if (< args-length 3)
      (begin
	(println "the number of args must be 3 or 4, e.g. ./job.lsp jobtracker.bigdata.cn 8080")
	(exit))))

(define (parse-args)
  (set ‘domain (main-args 2))
  (if (= 4 args-length)
      (set ‘port (main-args 3)))
  (if (= 3 args-length)
      (set ‘port "80"))
  (set ‘url (string "http://" domain ":" port "/jobtracker.jsp"))
  (println (string "job tracker site is located at " url)))

(define (access-job-tracker-site)
  (set ‘page-content (get-url url))
  (extract-tables page-content)
  )

(define (extract-summary-table table)
  (if (regex "Running Map Tasks" table)
      table)
  )

(define (get-number td)
  (set ‘r ((regex "<td>(.*)</td>" td) 3))
  (if (find "<a href" r)
      ((regex "<a.*?>(.*)</a>" r) 3)
    r))

(define (remove-td tds)
  (set ‘result ‘())
  (dolist (td tds)
    (push (get-number td) result -1)
    )
  result
  )

(define (parse-summary-table table)
  (set ‘all-tds (find-all "<td>[\\s\\S]*?</td>" table))
  (set ‘all-summary-values (remove-td all-tds))
  )

(define (extract-tables html-content)
  (set ‘all-tables (find-all "<table[^>]+>[\\s\\S]*?</table>" html-content))
  (dolist (table all-tables)
    (if (extract-summary-table table)
	(set ‘summary-table table))

    )
  (parse-summary-table summary-table)
  )

(define (write-summary-to-mysql all-summary-values)
  (println all-summary-values)
  (set ‘mysql-instance (Mysql))
  (println "mysql-instance: " mysql-instance)
  (set ‘mysql-host  "10.100.10.10")
  (set ‘mysql-port 3306)
  (set ‘mysql-user "user")
  (set ‘mysql-pwd "123456")
  (set ‘mysql-db "bigdata_data_market")
  (set ‘job-tracker-summary-table "hadoop_job_tracker_summary")
  (:connect mysql-instance mysql-host mysql-user mysql-pwd mysql-db mysql-port)
  (:query mysql-instance "SET character_set_client = utf8;")
  (set ‘insert-summary-sql (format "insert into %s (collect_time,running_map_tasks,running_reduce_tasks,total_submissions,nodes,occupied_map_slots,occupied_reduce_slots,reserved_map_slots,reserved_reduce_slots,map_task_capacity,reduce_task_capacity,average_tasks_per_node,blacked_listed_nodes,gray_listed_nodes,exclueded_nodes) values (now(),%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
				   job-tracker-summary-table
				   (all-summary-values 0)
				   (all-summary-values 1)
				   (all-summary-values 2)
				   (all-summary-values 3)
				   (all-summary-values 4)
				   (all-summary-values 5)
				   (all-summary-values 6)
				   (all-summary-values 7)
				   (all-summary-values 8)
				   (all-summary-values 9)
				   (all-summary-values 10)
				   (all-summary-values 11)
				   (all-summary-values 12)
				   (all-summary-values 13)))
  (println insert-summary-sql)
  (:query mysql-instance insert-summary-sql)

)

;; main logic starts now
(check-args)
(parse-args)
(access-job-tracker-site)
(write-summary-to-mysql all-summary-values)

(exit)

时间： 2024-10-15 09:47:59

newlisp跟踪jobtracker状态的相关文章

Sql Server来龙去脉系列之三查询过程跟踪

我们在读写数据库文件时,当文件被读.写或者出现错误时,这些过程活动都会触发一些运行时事件.从一个用户角度来看,有些时候会关注这些事件,特别是我们调试.审核.服务维护.例如,当数据库错误出现.列数据被更新.CPU占用过高等,跟踪这些状态是非常有用地. 本章节覆盖了事件系统的关键区域:触发器.事件通知器.改变跟踪.SQL跟踪.扩展事件等.这些事件都有一个相似目的:响应或者记录发生的事件.但每一中事件的工作方式又不一样. 基础:触发器和事件通知器触发器非常多,Data Manipulation La

SQL Server中关于跟踪（Trace)那点事

前言一提到跟踪俩字,很多人想到警匪片中的场景,同样在我们的SQL Server数据库中“跟踪”也是无处不在的,如果我们利用好了跟踪技巧,就可以针对某些特定的场景做定向分析,找出充足的证据来破案. 简单的举几个应用场景: 在线生产库为何突然宕机?数百张数据表为何不翼而飞?刚打好补丁的系统为何屡遭黑手?新添加的信息表为何频频丢失?某张表字段的突然更改,究竟为何人所为?这些个匿名的访问背后,究竟是人是鬼?突然增加的增量数据,究竟是对是错?数百兆的日志爆炸式的增长背后又隐藏着什么?这一且的背后,是应用

7、Servlet会话跟踪

一.会话跟踪: 不管操作多少功能,都是与当前登录用户相关的信息,当前的登录用户始终没有改变,也就是用户名和密码都没有丢失.但HTTP协议是一个无状态的协议,当一个客户向服务器发出请求(request),在服务器返回响应(response)后,连接就关闭了.这时,在服务器端不保留连接相关的信息,因此当下一次请求连接时,服务器已没有以前连接的信息了,也就无法判断这一次连接和以前的连接是否属于同一客户,也就是说Web服务器无法跟踪客户状态.在 Servlet 规范中,常用以下两种机制完成会话跟踪: a

iptables状态检测

iptables状态检测 iptables状态检测是一种扩展匹配中的显式扩展,用于检测会话之间的连接关系的,有了检测我们可以实现会话间功能的扩展什么是状态检测? 每个建立的连接包括以下信息:源IP地址.目标IP地址.源端口和目的端口,这叫一对套接字对(socket ); 协议类型.连接状态(TCP协议)和超时时间等信息.防火墙把这些信息叫作状态(stateful),能够检测每个连接状态的防火墙叫作带状态检测的包过滤防火墙:它除了能够完成简单包过滤防火墙的包过滤工作外,还在自己的内存中维护一个跟

会话跟踪--cookie

一.cookie 1.概念: 由服务器创建保存到客户端浏览器的一个键值对. 2.Http协议规定(保证不给浏览器太大压力) > 1个Cookie最大4KB > 1个服务器最多向1个浏览器保存20个Cookie > 1个浏览器最多可以保存300个Cookie 3. Cookie的用途 * 服务器使用Cookie来跟踪客户端状态! * 保存购物车(购物车中的商品不能使用request保存,因为它是一个用户向服务器发送的多个请求信息) * 显示上次登录名(也是一个用户多个请求) *******

Netfilter&iptables：如何理解连接跟踪机制？

如何理解Netfilter中的连接跟踪机制? 本篇我打算以一个问句开头,因为在知识探索的道路上只有多问然后充分调动起思考的机器才能让自己走得更远.连接跟踪定义很简单:用来记录和跟踪连接的状态. 问:为什么又需要连接跟踪功能呢? 答:因为它是状态防火墙和NAT的实现基础. OK,算是明白了.Neftiler为了实现基于数据连接状态侦测的状态防火墙功能和NAT地址转换功能才开发出了连接跟踪这套机制.那就意思是说:如果编译内核时开启了连接跟踪选项,那么Linux系统就会为它收到的每个数据包维持一个连接

IIS 之失败请求跟踪规则

若想使用此功能需先启动如下图的Windows功能: 利用失败请求跟踪功能,可以在出现问题时捕获相应的XML格式的日志,从而无需重现该问题即可开始故障排除.此外,还可以定义应用程序的失败条件并配置要基于URL记录的跟踪事件. 失败请求跟踪可以在两个级别进行配置: [1]在站点级别,可以启用或禁用跟踪并配置日志文件设置. [2]在应用程序级别,可以指定捕获跟踪事件时的失败条件,同时还可以配置应在日志文件条目中捕获的跟踪事件. (一)查看失败请求跟踪规则的列表若要管理失败请求的跟踪规则,可以查看包含

在代码中动态创建控件无法保存状态的问题

在网上找了点资料,算是明白了,这是我觉得有帮助的文章: 原文:http://blog.csdn.net/keleloveni/archive/2007/03/15/1530300.aspx 引文: 今天偶然看到有篇文章谈到了相关的问题,终于又解决了一个自己不是很明白的东西. 页面生命周期中的第一个阶段是实例化,在这个阶段中,自动生成的类会根据页面的 HTML 部分中定义的静态控件构建控件层次结构.构造控件层次结构时,声明性语法中指定的值会赋给添加的每个控件的属性.实例化之后是初始化阶段,在这个阶

SQL Server 黑盒跟踪 -- 深入进阶

SQL Server 黑盒跟踪 -- 深入进阶当你报告错误给支持提供商时,确保要提供Blackbox.trc和Sqldiag.txt文件. 创建Blackbox.trc文件: 1. 创建跟踪 2. 开启跟踪 3. 在运行sqldiag工具前停止跟踪你可以用下面的存储过程,trace_blackbox,去创建,启动,然后停止黑盒跟踪. 拷贝下面的脚本到查询分析器,然后脚本,创建trace_blackbox存储过程.注意,如果你要在master数据库创建它,你必须在master数据库运行该存储过