LMT NEW PBS作业排队系统的队列通信机制

LMT NEW PBS作业排队系统的队列通信机制

LMT NEW PBS作业排队运算系统提供了一种队列通信机制,允许消息按某种排队规则存储到持续介质或非持续介质(如内存)中,然后再转发给其它处理进程。这种存储转发机制可以保证在两个通信实体之间传递的消息不丢失、不重传,从而保证交易的完整性。

LMT NEW PBS的队列通信

LMT NEW PBS的队列通信用到了两个服务器:消息队列服务器和消息转发服务器。消息队列服务器用于对消息进行出队入队管理,消息转发服务器用于将消息从队列中取出,转发给服务器进行处理,然后将处理结果放回响应队列。

  图1

LMT NEW PBS的队列通信可以分为两类:客户机对客户机和客户机对服务器,差别在于前者消息不需要转发,而后者需要将消息转发到服务器请求服务处理。因此,对于前者,配置文件中就不用提供转发服务器。

  客户机对客户机的通信

  这种端对端的通信模式是队列系统的简单应用,图1是端对端异步通信模式的展示。左侧客户机通过tpenqueue()函数往队列里写了一条消息,然后接着做下面的工作;右侧客户机通过tpdequeue()函数接收消息,并进行处理,之后再往队列中写消息;左侧客户机从队列中取出消息;至此,一个通信周期完成。

  若使用同步通信,左侧客户往队列中写入消息后,就处于阻塞状态,只有等到取得右侧客户机的响应消息后,流程才继续往下执行。

  客户机对服务器的通信

  这种通信模式是LMT NEW PBS的常规应用,下面是客户机和服务器的通信流程:


  图2
  图2中左侧为客户机,右侧为服务器,中间为消息队列系统。右侧服务器提供了两个服务:SERVICE1和SERVICE2。在消息队列系统中,TMS_QM是LMT NEW PBS的事务管理服务器,它定义了一个队列服务器组,组中定义了一个队列空间,队列空间中定义了有四个消息队列,SERVICE1和SERVICE2分别是对应于同名的两个服务的队列(这是一种习惯的命名规则,客户机若请求服务器中的SERVICE1服务,就把请求消息放入SERVICE1队列中)。CLIENT_RPLY1是SERVICE1服务对请求的响应队列,FAILUREQ是服务器操作失败的响应队列。图中流程说明:

①客户机提出对SERVICE1的请求;

②TMQUEUE将请求消息入队;

③TMQUEUE向客户机汇报入队是否成功;

④TMQFORWARD取出请求消息;

⑤将请求消息传给SERVICE1;

⑥SERVICE1对请求作出响应;

⑦TMQFORWARD将响应消息入队;

⑧客户机要求取回响应消息;

⑨TMQUEUE取出响应消息;

⑩TMQUEUE取消息是否成功。

  队列管理

  在使用LMT NEW PBS之前,需要先创建队列空间和队列。并且设置好对作业的调度分配策略

作业调度和节点分配策略:

(1)提供了哪些作业调度和节点分配策略

(2)作业调度和节点分配策略是否是可配置的,用户能否自由选择各种策略而不影响系统的正 常运行

(3)用户能否选择或更改各种调度参数,如采用负载平衡算法时,是否可由用户自由选取负载参数

(4)当系统由许多工作站组成时,对工作站主人的影响 如何

(5)调度算法的开销由多大

(6)是否提供了检查点操作的功能,支持哪几种作业类型的检查点操作,是在操作系统级还是用户级

(7)是否提供了进程迁移 的功能

(8)系统是否对作业的状态进行监控,当作业异常是能否重新调度作业

(9)能否挂起或继续运行作业

(10)能否支持作业依赖

(11)能否支持节点的 公平共享策略、分区策略和独占策略,并由用户指定

(12)是否实现优先级策路,并允许用户修改作业的优先级

(13)是否具有分离的调度器和公开的API接 口,方便用户自己开发调度器

节点资源使用管理:

(1)系统管理员能否控制资源的可用性,能否更改资源配置,添加、删除和修改资源

(2) 系统管理员能否控制用户对资源的存取权限

(3)系统管理员能否限定资源被使用的大小

(4)用户提交作业时能否确定资源要求,作业提交后能否更改作业的资源 要求

(5)当作业完成后,能够很好地进行善后处理

(6)是否能提供Stage-in 和Stage-out功能

(8)当系统不可能满足作业的要求时,系统 能否在用户进行作业提交时采取措施

(9)加盟的工作站主人能否设置资源的可用性、存取权限以及可用时间

(10)加盟的工作站主人能否自由地退出而不影响整 个系统的运行

作业节点的监控能力:

(1)系统能否有效的监控作业的所有进程,特别是分布在不同节点上的并行作业的各个进程

(2)当用户杀除作业时,系统能否彻底地杀除该作业的所有子进程,不留下僵尸进程

(3)系统管理员能否改变队列或作业的状态

(4)用户能否察看系统和作业的运行状态

(5)用户能否挂起、释放或删除作业

时间: 2024-08-04 10:09:57

LMT NEW PBS作业排队系统的队列通信机制的相关文章

LMT NODE PBS作业排队系统的队列通信机制

LMT NODE PBS作业排队系统的队列通信机制 LMT NODE PBS作业排队运算系统提供了一种队列通信机制,允许消息按某种排队规则存储到持续介质或非持续介质(如内存)中,然后再转发给其它处理进程.这种存储转发机制可以保证在两个通信实体之间传递的消息不丢失.不重传,从而保证交易的完整性. LMT NODE PBS的队列通信 LMT NODE PBS的队列通信用到了两个服务器:消息队列服务器和消息转发服务器.消息队列服务器用于对消息进行出队入队管理,消息转发服务器用于将消息从队列中取出,转发

LMT NEW PBS作业排队系统

LMT NEW PBS作业排队系统 LMT NEW PBS是高度开放的智能化工作载荷管理解决方案,使企业实现最大化投资回报率.它广泛使用的网格优化计算.云计算.按需计算和集群管理的软件环境,能够让企业轻松实现分布式计算资源共享,无论在缩短产品上市周期还是改进产品质量方面达到并维持竞争性优势.凭借"按需使用"的商业模式,LMT NEW PBS提供了超越传统软件许可模式的高价值和灵活性.并应用这些解决方案和工具帮助航空航天业实现高效便捷高性能计算.        目前,面临各种新技术及竞争

LMT NODE PBS作业排队系统——高效分配网格资源

LMT NODE PBS作业排队系统--高效分配网格资源 网格是一个集成的计算与资源环境,充分吸收各种计算资源,并将它们转化成一种随处可得的.可靠的.标准的同时还是经济的计算能力.与传统的网络资源不同,网格资源具有异构性.动态性和自治性的特点. 网格资源的这些特性给网格资源自身的管理带来了实现上的困难和不可控性.同时为了满足高性能计算的目的,必须提供高效的资源管理服务.网格系统的资源管理负责决定作业请求CPU服务等待时间.作业的内存分配.以及怎样平衡计算负载等多方面的问题.资源管理同时负责在所有

LMT NEW PBS作业排队系统——高效分配网格资源

LMT NEW PBS作业排队系统--高效分配网格资源 网格是一个集成的计算与资源环境,充分吸收各种计算资源,并将它们转化成一种随处可得的.可靠的.标准的同时还是经济的计算能力.与传统的网络资源不同,网格资源具有异构性.动态性和自治性的特点. 网格资源的这些特性给网格资源自身的管理带来了实现上的困难和不可控性.同时为了满足高性能计算的目的,必须提供高效的资源管理服务.网格系统的资源管理负责决定作业请求CPU服务等待时间.作业的内存分配.以及怎样平衡计算负载等多方面的问题.资源管理同时负责在所有提

LMT NEW PBS作业排队调度系统的回报与功能

LMT NEW PBS作业排队调度系统的回报与功能 LMT NEW PBS作业管理系统的开发,提出了一种适合集群环境下的高效资源分配与利用方案,并给出了详细的设计过程.深入分析了作业管理系统的内部运行机制.安全机制.调度策略等方面问题,提出了改进方案. LMT NEW PBS是计算网络和广域分布式计算的支撑技术 使用LMT NEW PBS作业排队调度系统,您可以: 提高企业生产率和市场反应速度 提高计算资源投资回报率 (ROI) 更加高效地进行计算处理分析 更快地推出新产品 确保资源利用最大化

LMT NEW PBS作业排队管理系统分布式并行计算

LMT NEW PBS作业排队管理系统分布式并行计算 LMT NEW PBS作业排队管理系统,利用集群系统来构建分布式并行环境,将一个海量的计算请求看作一个作业,提交给集群系统,管理节点将这个作业分解为多个子任务,再根据收集的节点负载信息将这些任务分别映射到各个节点上进行计算. 一个作业在集群系统中的完整调度过程分为6个部分,分别为:提交作业,调度作业,分发作业,运行作业,返回输出和返回结果到提交节点. 基于集群系统的分布式并行计算结构如下图所示: (分布式并行计算结构图) 分布式并行计算结构包

LMT NEW PBS作业排队系统对作业调度运算

LMT NEW PBS作业排队系统对作业调度运算 计算机应用从早期以大型主机为核心转变到现在以网络为核心,促进了集群系统的产生与应用.集群系统是指互相连接的多个独立计算机(称为节点)的集合,每个节点都有自己的存储器.I\O设备和操作系统.集群对用户和应用来说是一个单一的系统,其主要目标是通过网络互联实现全系统范围内的资源的共享,通过高效的资源管理和任务调度技术实现资源的高利用率,获得高性能,故而集群系统具有低技术.高性能的特性,同时提供了强大的批处理和并行计算能力,它代表了高性能计算机发展的新方

LMT NEW PBS作业排队计算系统的调度算法

LMT NEW PBS作业排队计算系统的调度算法 一个作业定义为一个完整的.有用的一段信息的传送.一个作业的长度由传送的字节数来度量.为简便起见,定义一个短作业为能在一个IP分组中封装的作业.现在实际使用的路由和交换机所有数据分组处理方式是一致的,而不管它们来自短作业还是长作业. 作业源地址指送出作业的主机,作业的目标地址是指接收并处理数据的主机,一个作业的完成是指作业的最后一个分组被成功传送到目的地.作业的响应时间是第一个分组被传送出的时间与最后一个分组被传送到作业目标地址的时间间隔. 作业调

LMT NEW PBS——作业排队管理软件

LMT NEW PBS--作业排队管理软件 作业排队管理系统是一个建立在操作系统之上的一类系统软件,以机器.队列.请求作为它的主要资源.其主要作用是强化操作系统的作业管理功能,提供作业即时提交.定期执行.作业调度.作业控制等新机制,以便更加有效地利用系统资源.平衡网络负载.提高系统整体性能.作业管理系统一般具有典型的客户/服务器结构,服务器的功能包括批处理排队.作业调度.作业执行及资源管理等,客户的功能包括作业定义.服务器管理.系统信息查询等.在服务器与客户之间,采用TCP/IP网络连接协议及与