LMT NEW PBS作业调度管理系统应对金融行业作业批处理
大集中之后,要改变批处理作业管理的现状,各公司急需引进成熟统一的解决方案,以提高作业效率,节约管理成本,规避作业失败的风险。
经过近几年的努力,金融行业的业务和数据都实现了区域集中,有的已经实现数据的全国集中。在业务集中度不断提高的同时,原来在各个系统中普遍存在的各种批处理作业自然也被集中到了中心节点。
大集中后的挑战
业务和数据集中之后,银行必须相应改造原有业务系统的处理方式,并添加新的批处理作业来提升业务处理的效率。如何合理有效地管理这些新老批处理作业,成为各大企行必须要面对的一个重大课题。
但目前,各种业务的批处理作业相对独立,且在运行平台、实现技术、调度方式等方面都存在着较大的差异。
1. 除了运行核心业务的主机之外,在Solaris、AIX、HP_UX、Linux、Windows等几乎所有主流平台上都运行不同业务。
2. 在批处理作业的实现技术上,有各种计算机语言的的编码实现、数据库的存储过程、使用各种脚本语言编写的批处理脚本等各种不同的方式。
3. 调度方式上各不相同。有的通过定期GUI的菜单操作手动启动,有的通过计划任务、CronTab等方式实现定时启动,有的通过在业务系统中追加独自的作业管理功能来调度。
目前的批处理作业管理方式存在着许多需要改进的缺陷:需要较多的人工干预、作业执行效率差、操作失误多等。
集中管理满足需求
为了改变作业管理的现状,各银行急需引进一个成熟的统一管理解决方案,来实现科学的作业管理机制。以提高作业效率,节约管理成本,规避作业失败的风险。该方案需要满足的基本需求如下:
1. 可以跨平台调度批处理作业。如果要实现作业的集中统一管理,必须实现作业的跨平台调度,且各平台上的作业的调度方式必须一致。
2. 支持分布式环境下的作业调度。各个银行的集中程度不同,网路结构也不一样,跨网段、以及跨地域的网络调度的需求会普遍存在。
3. 集中作业流定义、调度和监控。所谓的集中管理,主要体现在作业流程定义、作业的分发和调度、以及作业的监控这三种行为的集中上。
4. 统一批处理作业的调度方式。若用相同的方式对类似作业进行调度,将大大降低管理成本以及对管理员的要求。
5. 拥有时间表定制功能和作业按计划自动执行的机制。完善的作业计划能力和时间表定制功能是实现批处理作业执行循环的关键。
6. 容错和故障恢复机制。好的解决方案需要拥有一定的自动故障恢复的机制,并为管理员解决故障提供支持。
LMT NEW PBS系统对作业管理的解决方案
Lanmantech经过了多年的经验总结,研发出了LMT NEW PBS作业调度系统,将大型机的批处理技术引入到开放系统。lanmantech的统一作业管理的解决方案以LMT NEW PBS系统为核心,统一管理运行于多台计算机上的网络作业,实现业务处理的高效自动运行。从而充分有效地利用计算机资源的基础上,为用户提供一个安全稳定的业务应用环境。
在该方案中,需要在每一台执行作业的机器上配置LMT NEW PBS系统的代理模块,然后通过应用于高可用集群下的作业调度服务器来对所有作业进行调度。
在应用的过程中,管理员通过图形化界面的控制台登录到作业调度服务器上,统一编辑作业流、时间表和作业执行计划,并通过设置将每一个单元作业指定到相应的执行作业的机器。所有的定义信息均保存在作业管理服务器上,作业管理服务器上会根据事先制定的作业执行计划自动调度各个机器上的作业。系统结构如图1所示。
图1:LMT NEW PBS系统结构图
1. 支持多平台/多厂商环境。LMT NEW PBS系统所管理的作业可以分布于所有主流操作系统平台。例如Windows(2000, XP, 2003), UNIX (HP-UX, Solaris, AIX),和 Linux (RedHat, Miracle,RedFlag,Turbo等)。LMT NEW PBS系统的作业调度服务器也可以配置在上述所有平台上。
2. 集中定义流程,作业分布执行。通过设置网络中各个作业的属性,可实现多服务器多平台的作业协作运行。
3. 可视化的作业流程定义方式。可在GUI界面上通过拖放图标方式,就可以完成流程的创建。通过各种控制部件,可以灵活地描述作业,创建符合业务逻辑的作业系统和大规模的作业流程。
4. 作业可按计划自动运行。 LMT NEW PBS系统拥有一个十分完善的时间表定制功能,可以将作业的执行计划精确到分钟。通过时间表制定好作业的执行计划后,作业管理服务器将按照计划自动调度作业。管理员将彻底摆脱批处理作业中最繁琐枯燥的工作。
5. 实时集中监控 迅速锁定故障。可通过一览表轻松掌控作业网络的执行状况。并且在一览表中用不同颜色显示执行状况。还可以通过甘特图来掌握运行作业所耗费的时间。通过过滤功能显示符合检索条件的作业网络。
6. 管理信息的导入和导出。可以通过在GUI或命令行方式将导入、导出已创建好的业务流程和时间表、作业环境的备份/恢复和作业环境的移植工作变得十分简便易行。
7. 完善的容错和故障恢复机制。在网络发生故障时,LMT NEW PBS系统的通信重试机制可以保证在网络故障恢复之后管理服务器可以正常获得作业的执行结果,并且正常调度后续的作业。当作业本身由于各种原因执行失败时,LMT NEW PBS系统可以利用条件分支部件和负载均衡配置来提供完善的容错和故障恢复能力。
图2:大规模业务系统管理的解决方案
可以在条件分支部件的异常处理分支中将作业流程重新定向到发生故障的单元作业,自动进行重试处理。
可以将故障恢复处理定义在条件分支部件的异常处理分支中,自动恢复。
利用多台服务器实现负载均衡功能时,对执行失败的作业自动迁移。
如果经过重试以及作业迁移均无法恢复作业运行故障,可实时通知管理员。
8. 大规模业务系统的管理解决方案。如何集中管理所有服务器,又不让作业管理服务器的负荷成为整个系统的瓶颈,是构建大规模作业管理系统是必须考虑的问题。在管理服务器级联的环境中,管理服务器分为两个级别,二级服务器有多台,负责分散作业调度的负荷。一级服务器只有一台,负责汇总所有二级服务器上的作业管理信息,进行统一的监控。
9. 在高可用集群环境下搭建作业管理系统。作业管理服务器是全部作业运作的核心,其稳定运行是作业管理系统甚至整个业务系统的命脉。将LMT NEW PBS系统应用于集群环境中,可在服务器或管理系统的服务发生故障时,自动将IP和作业管理系统切换到备份服务器,从而保证作业的执行状况和历史记录完全被备份服务器继承,作业调度和作业执行可以继续,避免由于故障导致作业运行被中断。
LMT NEW PBS作业管理系统的简单介绍:
(作业列表_查看所有作业:显现出作业的详细信息。作业详细信息包括作业文件参数、作业计算结果、作业ID、主文件编号、所需CPU数量、所需内存大小、软件名称、版本等等。)
(作业调整:可以对正在排队的作业进行排队顺序的操作。)
(节点列表:显示所有节点记录。)
(节点维护:显示所有的节点信息,并且可以对节点进行新增、修改、删除操作。)
(节点平台管理:显示出所选节点平台的详细信息,并支持对去进行修改。)
(CPU配额使用实时状态:显示的是用户空闲时可用上限CPU数、紧张时可用上限CPU数。)
(作业节点实时状态监控图:显示当前实时的节点监控结果。)
(作业数据分析:依据时间范围、软件视图、用户视图、只显示软件、只显示具体队列等方式选择要查询的数据。)
(角色列表:查看用户的角色,系统管理员或提交人员角色。)
(CAE维护:查看到按软件名称排列的列表。该列表显示软件名称、软件版本、软件安装目录、软件程序绝对路径、主文件 后缀名、MPI路径、MPI版本等信息。)
(系统检测:可以对异常情况平台进行立即检测及修复功能操作。支持对平台查看历史日志。)