LMT NEW PBS作业调度管理系统应对金融行业作业批处理

LMT NEW PBS作业调度管理系统应对金融行业作业批处理

大集中之后,要改变批处理作业管理的现状,各公司急需引进成熟统一的解决方案,以提高作业效率,节约管理成本,规避作业失败的风险。

经过近几年的努力,金融行业的业务和数据都实现了区域集中,有的已经实现数据的全国集中。在业务集中度不断提高的同时,原来在各个系统中普遍存在的各种批处理作业自然也被集中到了中心节点。

大集中后的挑战

业务和数据集中之后,银行必须相应改造原有业务系统的处理方式,并添加新的批处理作业来提升业务处理的效率。如何合理有效地管理这些新老批处理作业,成为各大企行必须要面对的一个重大课题。

但目前,各种业务的批处理作业相对独立,且在运行平台、实现技术、调度方式等方面都存在着较大的差异。

1. 除了运行核心业务的主机之外,在Solaris、AIX、HP_UX、Linux、Windows等几乎所有主流平台上都运行不同业务。

2. 在批处理作业的实现技术上,有各种计算机语言的的编码实现、数据库的存储过程、使用各种脚本语言编写的批处理脚本等各种不同的方式。

3. 调度方式上各不相同。有的通过定期GUI的菜单操作手动启动,有的通过计划任务、CronTab等方式实现定时启动,有的通过在业务系统中追加独自的作业管理功能来调度。

目前的批处理作业管理方式存在着许多需要改进的缺陷:需要较多的人工干预、作业执行效率差、操作失误多等。

集中管理满足需求

为了改变作业管理的现状,各银行急需引进一个成熟的统一管理解决方案,来实现科学的作业管理机制。以提高作业效率,节约管理成本,规避作业失败的风险。该方案需要满足的基本需求如下:

1. 可以跨平台调度批处理作业。如果要实现作业的集中统一管理,必须实现作业的跨平台调度,且各平台上的作业的调度方式必须一致。

2. 支持分布式环境下的作业调度。各个银行的集中程度不同,网路结构也不一样,跨网段、以及跨地域的网络调度的需求会普遍存在。

3. 集中作业流定义、调度和监控。所谓的集中管理,主要体现在作业流程定义、作业的分发和调度、以及作业的监控这三种行为的集中上。

4. 统一批处理作业的调度方式。若用相同的方式对类似作业进行调度,将大大降低管理成本以及对管理员的要求。

5. 拥有时间表定制功能和作业按计划自动执行的机制。完善的作业计划能力和时间表定制功能是实现批处理作业执行循环的关键。

6. 容错和故障恢复机制。好的解决方案需要拥有一定的自动故障恢复的机制,并为管理员解决故障提供支持。

LMT NEW PBS系统对作业管理的解决方案

Lanmantech经过了多年的经验总结,研发出了LMT NEW PBS作业调度系统,将大型机的批处理技术引入到开放系统。lanmantech的统一作业管理的解决方案以LMT NEW PBS系统为核心,统一管理运行于多台计算机上的网络作业,实现业务处理的高效自动运行。从而充分有效地利用计算机资源的基础上,为用户提供一个安全稳定的业务应用环境。

在该方案中,需要在每一台执行作业的机器上配置LMT NEW PBS系统的代理模块,然后通过应用于高可用集群下的作业调度服务器来对所有作业进行调度。

在应用的过程中,管理员通过图形化界面的控制台登录到作业调度服务器上,统一编辑作业流、时间表和作业执行计划,并通过设置将每一个单元作业指定到相应的执行作业的机器。所有的定义信息均保存在作业管理服务器上,作业管理服务器上会根据事先制定的作业执行计划自动调度各个机器上的作业。系统结构如图1所示。

图1:LMT NEW PBS系统结构图

1. 支持多平台/多厂商环境。LMT NEW PBS系统所管理的作业可以分布于所有主流操作系统平台。例如Windows(2000, XP, 2003), UNIX (HP-UX, Solaris, AIX),和 Linux (RedHat, Miracle,RedFlag,Turbo等)。LMT NEW PBS系统的作业调度服务器也可以配置在上述所有平台上。

2. 集中定义流程,作业分布执行。通过设置网络中各个作业的属性,可实现多服务器多平台的作业协作运行。

3. 可视化的作业流程定义方式。可在GUI界面上通过拖放图标方式,就可以完成流程的创建。通过各种控制部件,可以灵活地描述作业,创建符合业务逻辑的作业系统和大规模的作业流程。

4. 作业可按计划自动运行。 LMT NEW PBS系统拥有一个十分完善的时间表定制功能,可以将作业的执行计划精确到分钟。通过时间表制定好作业的执行计划后,作业管理服务器将按照计划自动调度作业。管理员将彻底摆脱批处理作业中最繁琐枯燥的工作。

5. 实时集中监控 迅速锁定故障。可通过一览表轻松掌控作业网络的执行状况。并且在一览表中用不同颜色显示执行状况。还可以通过甘特图来掌握运行作业所耗费的时间。通过过滤功能显示符合检索条件的作业网络。

6. 管理信息的导入和导出。可以通过在GUI或命令行方式将导入、导出已创建好的业务流程和时间表、作业环境的备份/恢复和作业环境的移植工作变得十分简便易行。

7. 完善的容错和故障恢复机制。在网络发生故障时,LMT NEW PBS系统的通信重试机制可以保证在网络故障恢复之后管理服务器可以正常获得作业的执行结果,并且正常调度后续的作业。当作业本身由于各种原因执行失败时,LMT NEW PBS系统可以利用条件分支部件和负载均衡配置来提供完善的容错和故障恢复能力。

图2:大规模业务系统管理的解决方案

可以在条件分支部件的异常处理分支中将作业流程重新定向到发生故障的单元作业,自动进行重试处理。

可以将故障恢复处理定义在条件分支部件的异常处理分支中,自动恢复。

利用多台服务器实现负载均衡功能时,对执行失败的作业自动迁移。

如果经过重试以及作业迁移均无法恢复作业运行故障,可实时通知管理员。

8. 大规模业务系统的管理解决方案。如何集中管理所有服务器,又不让作业管理服务器的负荷成为整个系统的瓶颈,是构建大规模作业管理系统是必须考虑的问题。在管理服务器级联的环境中,管理服务器分为两个级别,二级服务器有多台,负责分散作业调度的负荷。一级服务器只有一台,负责汇总所有二级服务器上的作业管理信息,进行统一的监控。

9. 在高可用集群环境下搭建作业管理系统。作业管理服务器是全部作业运作的核心,其稳定运行是作业管理系统甚至整个业务系统的命脉。将LMT NEW PBS系统应用于集群环境中,可在服务器或管理系统的服务发生故障时,自动将IP和作业管理系统切换到备份服务器,从而保证作业的执行状况和历史记录完全被备份服务器继承,作业调度和作业执行可以继续,避免由于故障导致作业运行被中断。

LMT NEW PBS作业管理系统的简单介绍:

(作业列表_查看所有作业:显现出作业的详细信息。作业详细信息包括作业文件参数、作业计算结果、作业ID、主文件编号、所需CPU数量、所需内存大小、软件名称、版本等等。)

(作业调整:可以对正在排队的作业进行排队顺序的操作。)

(节点列表:显示所有节点记录。)

(节点维护:显示所有的节点信息,并且可以对节点进行新增、修改、删除操作。)

(节点平台管理:显示出所选节点平台的详细信息,并支持对去进行修改。)

(CPU配额使用实时状态:显示的是用户空闲时可用上限CPU数、紧张时可用上限CPU数。)

(作业节点实时状态监控图:显示当前实时的节点监控结果。)

(作业数据分析:依据时间范围、软件视图、用户视图、只显示软件、只显示具体队列等方式选择要查询的数据。)

(角色列表:查看用户的角色,系统管理员或提交人员角色。)

(CAE维护:查看到按软件名称排列的列表。该列表显示软件名称、软件版本、软件安装目录、软件程序绝对路径、主文件 后缀名、MPI路径、MPI版本等信息。)

(系统检测:可以对异常情况平台进行立即检测及修复功能操作。支持对平台查看历史日志。)

时间: 2024-10-24 14:50:07

LMT NEW PBS作业调度管理系统应对金融行业作业批处理的相关文章

LicManager NEW PBS作业调度管理系统

  LicManager NEW PBS作业调度管理系统 作业调度管理系统主要负责接收用户提交的作业请求,并根据特定的调度规则以及用户对作业的要求选择合适的计算资源来完成用户作业.在作业调度系统的帮助下,对用户而言高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统.作业调度系统管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果. 集群作业调度管理可以根据用户的需求,动态地完成集群的软硬件资源的管理和调度,保

LMT NEW PBS作业调度系统

 LMT NEW PBS作业调度系统 高性能计算(HPC)是一个计算机集群系统,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题,所以又通常被称为高性能计算集群. 高性能计算方法的基本原理就是将问题分为若干部分,而相连的每台计算机(称为节点)均可同时参与问题的解决,从而显著缩短了解决整个问题所需的计算时间. 通常,解决大型计算问题需要功能强大的计算机系统,而现在,随着高性能计算的出现,使这一类应用从昂贵的大型外部计算机系统演变为采用商用服务器产品和

LMT NEW PBS作业调度系统的作业管理操作

LMT NEW PBS作业调度系统的作业管理操作 LMT NEW PBS系统的作业调度器是一个守护进程,这一进程策略控制着哪一个作业被运行,在那个节点运行,什么时候运行.因为每一个作业对于什么是好的或者有效的策略都有它自己的想法,LMT NEW PBS允许每一个作业节点来使用调度器.当运行的时候,调度器就可以和不同的Moms进行通信来获知系统资源的状态:和服务器进行通信来获知要执行的作业的有效性.与服务器之间的接口是通过和命令组件一样的API. LMT NEW PBS作业管理部分除了上面主要的部

LMT NEW PBS作业排队系统对作业调度运算

LMT NEW PBS作业排队系统对作业调度运算 计算机应用从早期以大型主机为核心转变到现在以网络为核心,促进了集群系统的产生与应用.集群系统是指互相连接的多个独立计算机(称为节点)的集合,每个节点都有自己的存储器.I\O设备和操作系统.集群对用户和应用来说是一个单一的系统,其主要目标是通过网络互联实现全系统范围内的资源的共享,通过高效的资源管理和任务调度技术实现资源的高利用率,获得高性能,故而集群系统具有低技术.高性能的特性,同时提供了强大的批处理和并行计算能力,它代表了高性能计算机发展的新方

LMT NEW PBS作业排队管理系统分布式并行计算

LMT NEW PBS作业排队管理系统分布式并行计算 LMT NEW PBS作业排队管理系统,利用集群系统来构建分布式并行环境,将一个海量的计算请求看作一个作业,提交给集群系统,管理节点将这个作业分解为多个子任务,再根据收集的节点负载信息将这些任务分别映射到各个节点上进行计算. 一个作业在集群系统中的完整调度过程分为6个部分,分别为:提交作业,调度作业,分发作业,运行作业,返回输出和返回结果到提交节点. 基于集群系统的分布式并行计算结构如下图所示: (分布式并行计算结构图) 分布式并行计算结构包

LMT NEW PBS作业排队调度系统的回报与功能

LMT NEW PBS作业排队调度系统的回报与功能 LMT NEW PBS作业管理系统的开发,提出了一种适合集群环境下的高效资源分配与利用方案,并给出了详细的设计过程.深入分析了作业管理系统的内部运行机制.安全机制.调度策略等方面问题,提出了改进方案. LMT NEW PBS是计算网络和广域分布式计算的支撑技术 使用LMT NEW PBS作业排队调度系统,您可以: 提高企业生产率和市场反应速度 提高计算资源投资回报率 (ROI) 更加高效地进行计算处理分析 更快地推出新产品 确保资源利用最大化

LMT NEW PBS作业排队系统

LMT NEW PBS作业排队系统 LMT NEW PBS是高度开放的智能化工作载荷管理解决方案,使企业实现最大化投资回报率.它广泛使用的网格优化计算.云计算.按需计算和集群管理的软件环境,能够让企业轻松实现分布式计算资源共享,无论在缩短产品上市周期还是改进产品质量方面达到并维持竞争性优势.凭借"按需使用"的商业模式,LMT NEW PBS提供了超越传统软件许可模式的高价值和灵活性.并应用这些解决方案和工具帮助航空航天业实现高效便捷高性能计算.        目前,面临各种新技术及竞争

LMT NEW PBS作业排队计算系统的调度算法

LMT NEW PBS作业排队计算系统的调度算法 一个作业定义为一个完整的.有用的一段信息的传送.一个作业的长度由传送的字节数来度量.为简便起见,定义一个短作业为能在一个IP分组中封装的作业.现在实际使用的路由和交换机所有数据分组处理方式是一致的,而不管它们来自短作业还是长作业. 作业源地址指送出作业的主机,作业的目标地址是指接收并处理数据的主机,一个作业的完成是指作业的最后一个分组被成功传送到目的地.作业的响应时间是第一个分组被传送出的时间与最后一个分组被传送到作业目标地址的时间间隔. 作业调

LMT NEW PBS——作业排队管理软件

LMT NEW PBS--作业排队管理软件 作业排队管理系统是一个建立在操作系统之上的一类系统软件,以机器.队列.请求作为它的主要资源.其主要作用是强化操作系统的作业管理功能,提供作业即时提交.定期执行.作业调度.作业控制等新机制,以便更加有效地利用系统资源.平衡网络负载.提高系统整体性能.作业管理系统一般具有典型的客户/服务器结构,服务器的功能包括批处理排队.作业调度.作业执行及资源管理等,客户的功能包括作业定义.服务器管理.系统信息查询等.在服务器与客户之间,采用TCP/IP网络连接协议及与