LMT NEW PBS作业调度系统

 LMT NEW PBS作业调度系统

高性能计算(HPC)是一个计算机集群系统,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题,所以又通常被称为高性能计算集群。

高性能计算方法的基本原理就是将问题分为若干部分,而相连的每台计算机(称为节点)均可同时参与问题的解决,从而显著缩短了解决整个问题所需的计算时间。

通常,解决大型计算问题需要功能强大的计算机系统,而现在,随着高性能计算的出现,使这一类应用从昂贵的大型外部计算机系统演变为采用商用服务器产品和软件的高性能计算机集群。因此,高性能计算系统已经成为解决大型问题计算机系统的发展方向。 那么,什么样的大型问题最适合使用高性能计算系统呢?一般来说,高性能计算是为了实现在下列情况下的计算系统:
 能够突破性能极限的计算。
 单个高端计算机系统不能满足其需求的计算。
 需要通过专门的程序优化最大限度提高系统的I/O、计算和数据传送性能的计算。

集群控制系统

我们知道,高性能计算系统实际上是一个计算机集群系统,它需要通过通讯和集群控制软件将整个系统紧密联系在一起。同时,还要负责初始化集群节点、在所需数量的节点上安装应用程序、并监视集群节点和互连的当前运行状况。
    目前在市场上有多开放源代码的集群控制系统,也有许多高性能计算的用户开发自己的控制系统来适应其特殊的应用软件的需求。故而集群控制系统就必须具备:

一、高性能计算的互联技术

高性能计算的互联技术在整个系统中非常重要,因为一般的高性能计算系统都需要讲几十台甚至几百台的计算机系统互相连接在一起,互联系统的性能有时会直接影响整个高性能计算系统的性能。 
    目前,一般的大型高性能计算系统使用Myrinet系统作为主要的数据互联系统,而使用百兆或千兆以太网进行管理与控制。而在小型的高性能计算系统中,可以用直接使用千兆甚至百兆以太网作为互联系统。

二、计算节点

计算节点是高性能计算系统中的单个计算机系统,是整个高性能计算系统的基础。基于英特尔架构的服务器系统是作为高性能计算节点的最佳选择。应为大多数高性能计算需要多线程同时执行,这样基于英特尔至强处理器的计算节点可以满足需求。另外,大多数模拟类型程序需要进行大量浮点运算(FLOPS),因而节点处理器支持大量浮点运算的能力就变得至关重要。当前的英特尔处理器(如英特尔至强?处理器)的处理速度已达到每秒二十亿次浮点运算。这意味着由1000枚处理器组成的集群的处理能力可与世界上一些功能最强大的超级计算机相媲美,而成本却低得多。

数据采掘则不同。根据数据库的体系结构,这些应用对I/O的潜在要求较高。而分布式驻留内存数据库例外。在该体系结构中,集群中的每个处理器都要参与一部分数据库处理。当一个查询请求被提交给数据库时,它同时被提交给集群中的所有处理器。由于所有处理器都只需处理一小部分数据库,因而解决查询的速度要比在传统体系结构中快得多。

高性能计算系统设计

这一部分,我们按照系统的设计方法来对高性能计算的各个环节的设计和设备选型给出相应的建议。

判断应用的特性
    对于一个高性能计算的应用,我们可以从如下的几个方面来确定其类型:

一、应用的粒度
    由于高性能计算的应用需要在多个计算节点上同时运行,则在各个节点计算的同时,还需要相互间的通讯。所谓应用的粒度,是指在一个高性能计算应用中计算所花的时间与通讯所花的时间之比。这是高性能计算应用的一个重要的特征之一。

很显然,不同的应用其粒度也不一样。例如一个生成动画电影的高性能计算应用,用于每幅画面可以由任何一个计算检点独立计算生成,节点间的通讯量非常少,因此,这是一个粒度非常大的应用。反之,对于一个进行汽车模拟碰撞试验的高性能计算的应用,由于在每个节点上计算的任何部件的运动,都会对其它的部件的状态有影响,因而节点间的相互通讯会非常多,这类应用就是小粒度的应用。

应用力度的大小将直接影响对计算节点和互联设备的选择,从而影响对整个项目的投资。一般来讲,粒度大的应用可以使用相对低速互联技术(如百兆以太网),从而降低项目的费用。因而,在应用的开发和优化过程中,应该尽量加大整个应用的粒度,减少不必要的节点间相互通讯。

二、应用的计算特性
    高性能计算的应用的目的是通过计算来解决某个特定的问题,但不同的应用所需要的计算特性也不一样,一般的高性能计算系统应用的计算特性主要分为入下三种类型:

多媒体运算
    主要使用整型和双精度运算。例如用于图形图像处理和三维图像生成的高性能计算系统就属于多媒体运算系统。在这种情况下,计算节点的多媒体计算功能非常重要。比如英特尔至强处理器所带的SSE和SSE2指令就非常适合这种应用。

科学计算
    主要使用浮点运算功能,这也是目前高性能计算系统的最主要应用领域。像天气预报和石油勘探等高性能计算系统都属于这一类。

数据库应用
    主要使用逻辑计算和I/O操作。现在的数据库集群系统和网格数据库系统就属于这类应用。它需要计算节点有很强的I/O处理能力,同时,整个高性能计算系统也应该具有足够的外接存储空间。

在设计高性能计算系统的过程中,根据不同的计算类型来确定相应的计算节点和系统配置,从而使系统可以满足应用的需求同时达到最佳的系统性价比。

三、应用的时效性
    一个大型问题之所以需要用高性能计算系统来解决,可能主要是因为如下两种情况:一是因为问题无法在单个节点上计算完成;另一个是因为在一个节点上无法在规定的时间内完成。这里就关系到应用的时效性了。 一般来讲,应用的时效性就是指一个高性能计算的应用需要在多长的时间内计算完成。它是确定高性能计算系统规模的重要参数之一。

我们知道,天气预报系统的计算就是一个时效性很强的高性能计算应用,因为在得到测量的数据后,我们必须在最快的时间内计算出相应的结果,以便相关人员及时发出当天的天气预报。

对于一个时效性很强的应用,在设计高性能计算系统时,一定要以满足应用的计算速度为第一目标,一定要使高性能计算系统在规定的时间内完成计算。否则,该系统就没有意义。 而对于一个时效性不强的应用,可以考虑通过延长计算时间来减少节点和互联系统的配置,但也要考虑到可以容忍的时间限度和系统的可靠性等因素。特别是随着时间的延长,整个系统中某个节点出现故障的概率会增加。

四、确定系统规模
    确定高性能计算系统的规模是一个复杂的过程,一般来讲,主要从以下几个方面来考虑:
 特定的目标:
    有些高性能计算系统在设计之初就确定了系统规模,在具体设计时,可以根据系统的配置情况来计算是否达到要求。

应用的要求:
    如上一节所讲的那样,从应用的粒度、应用的计算特点和应用对实效性的要求来确定应用的规模。

系统投资: 
    从某些方面来讲,系统的投资与系统的规模成正比,也就是说系统投资决定系统规模。但为了达到最佳的投资回报比可以根据系统应用的计算特点来选择合适的计算节点和互联设备,从而在投资不变的情况下获得最佳性能。

现在,我们通常使用每秒的浮点运算次数来表示一个高性能计算系统的性能。通常,这个性能标准可以用Linpack HPC的基准测试来获得。由于在系统设计的过程中,我们根本无法测试整个系统。那么,如何来估算一个高性能计算系统的性能就显得十分重要。

从理论上讲,一个高性能的计算系统的性能在理想的状况下为系统中所有的处理器的计算能力的总和。例如一个高性能计算系统使用双路的英特尔至强处理器为节点。而单个至强处理器的Linpack值达约达到2Gflops,即每秒20亿次浮点运算。则一个有256个双路英特尔至强处理器的高性能计算系统的理论性能可以达到 256 X 2 X 2 = 1024 GFlops,也就是每秒一万亿次浮点运算。如果使用四路英特尔Itanium 2系统为计算节点,由于每个Itanium 2处理器的Linpack值达约达到3.2 Gflops,即每秒32亿次浮点运算,则在理想的情况下,80个节点就可以达到每秒一万亿次浮点运算的性能。

80 *4 *3.2 = 1024 GFlops

当然,以上的情况是在理想的状况下达到的。在具体实施时,需要根据互联设备的性能、应用程序的特点来集体考虑。

LicManager的PBS作业调度系统

为应对市场需求,lanmantech公司研发出了LMT-LicManager的PBS作业调度系统,考虑到商业公司随着竞争的加剧和应用的普及,高性能计算不再是一个不惜工本的应用领域,许多项目的预算约束越来越严格。这就要求厂商生产全系列的产品满足不同规模应用的需求、更加可靠地保护用户原有投资、加速IT投资回报,而且也要求实现资源按需供应和更大范围的资源共享,这些都推动网格和公用服务等新的计算模式的发展。

在LicManager的PBS作业调度系统中,高性能计算用户通过登录管理节点进行作业的提交,作业提交后,由管理节点上的PBS作业管理软件进行管理和分发。LicManager的PBS作业调度系统是为生产环境设计的,它可提供了图形和命令行两种用户界面来提交批处理、交互式作业,并提供查询作业、队列、系统的状态和跟踪作业的处理。

在作业运行之前,用户可将需要的文件拷贝到执行节点上,和将这些指定的文件在作业执行完之后,拷贝出来。只有在所有的文件成功传输之后,作业将会被列入调度表。

提交任务的用户可以指定作业的优先级,可以向队列和系统层提供默认值。PBS作业调度系统支持单队列或多队列方式。并选择标准的先后顺序调度,或者改进的调度算法。

LicManager的PBS作业调度系统还可以使用户定义广泛的批处理作业的内部相关性。这些相关性包括:执行顺序、同步执行和根据指定作业的成功或失败结果条件执行。

LMT-LicManager的PBS作业调度系统是一套标准的、面向复杂应用的集群操作系统,具有非常友好的应用界面。其主要特点有:
 简单易懂的人性化操作界面
 支持动态加入计算节点

高速运算作业
 可以支持数百台计算机系统

开放性和兼容性高

性能与价格的性价比优越
 优秀的后台技术支持。

结语
    随着高性能计算集群应用规模的不断扩充,集群的管理问题也随之而来。起初集群规模较小,比较容易管理和维护,系统的能耗和运维成本问题还不明显。但随着集群规模的不断扩充,集群系统能耗高、利用效率低、大规模集群系统运维管理困难等缺点逐渐凸显出来。

在LicManager的PBS作业调度系统的帮助下,对用户而言高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统。PBS作业调度系统管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果。

LicManager的集群作业调度管理可以根据用户的需求,动态地完成集群的软硬件资源的管理和调度,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。

时间: 2024-10-14 14:12:34

LMT NEW PBS作业调度系统的相关文章

LMT NEW PBS作业调度系统的作业管理操作

LMT NEW PBS作业调度系统的作业管理操作 LMT NEW PBS系统的作业调度器是一个守护进程,这一进程策略控制着哪一个作业被运行,在那个节点运行,什么时候运行.因为每一个作业对于什么是好的或者有效的策略都有它自己的想法,LMT NEW PBS允许每一个作业节点来使用调度器.当运行的时候,调度器就可以和不同的Moms进行通信来获知系统资源的状态:和服务器进行通信来获知要执行的作业的有效性.与服务器之间的接口是通过和命令组件一样的API. LMT NEW PBS作业管理部分除了上面主要的部

LMT NEW PBS作业调度管理系统应对金融行业作业批处理

LMT NEW PBS作业调度管理系统应对金融行业作业批处理 大集中之后,要改变批处理作业管理的现状,各公司急需引进成熟统一的解决方案,以提高作业效率,节约管理成本,规避作业失败的风险. 经过近几年的努力,金融行业的业务和数据都实现了区域集中,有的已经实现数据的全国集中.在业务集中度不断提高的同时,原来在各个系统中普遍存在的各种批处理作业自然也被集中到了中心节点. 大集中后的挑战 业务和数据集中之后,银行必须相应改造原有业务系统的处理方式,并添加新的批处理作业来提升业务处理的效率.如何合理有效地

LMT NEW PBS作业排队运算系统对批处理作业的调度

LMT NEW PBS作业排队运算系统对批处理作业的调度 LMT NEW PBS作业排队调度程序从后备作业中选取若干个作业到内存并投入运行.它为选中作业建立进程并分配必要的资源,这时,这些被选中的作业处于执行状态.PBS作业调度的功能是记录系统中各作业的状况,从后备作业队列中挑选一批作业进入执行状态,以及为被选中作业分配资源建立进程和在作业执行结束后释放所占用的资源等.其中最主要的是从后备作业队列中选取一批作业进入执行状态. 根据不同的目标,将会有不同的调度算法.一般来说,调度目标主要是以下四点

LMT NEW PBS作业排队调度系统的回报与功能

LMT NEW PBS作业排队调度系统的回报与功能 LMT NEW PBS作业管理系统的开发,提出了一种适合集群环境下的高效资源分配与利用方案,并给出了详细的设计过程.深入分析了作业管理系统的内部运行机制.安全机制.调度策略等方面问题,提出了改进方案. LMT NEW PBS是计算网络和广域分布式计算的支撑技术 使用LMT NEW PBS作业排队调度系统,您可以: 提高企业生产率和市场反应速度 提高计算资源投资回报率 (ROI) 更加高效地进行计算处理分析 更快地推出新产品 确保资源利用最大化

LMT NEW PBS作业排队系统对作业调度运算

LMT NEW PBS作业排队系统对作业调度运算 计算机应用从早期以大型主机为核心转变到现在以网络为核心,促进了集群系统的产生与应用.集群系统是指互相连接的多个独立计算机(称为节点)的集合,每个节点都有自己的存储器.I\O设备和操作系统.集群对用户和应用来说是一个单一的系统,其主要目标是通过网络互联实现全系统范围内的资源的共享,通过高效的资源管理和任务调度技术实现资源的高利用率,获得高性能,故而集群系统具有低技术.高性能的特性,同时提供了强大的批处理和并行计算能力,它代表了高性能计算机发展的新方

LMT NEW PBS作业排队系统的队列通信机制

LMT NEW PBS作业排队系统的队列通信机制 LMT NEW PBS作业排队运算系统提供了一种队列通信机制,允许消息按某种排队规则存储到持续介质或非持续介质(如内存)中,然后再转发给其它处理进程.这种存储转发机制可以保证在两个通信实体之间传递的消息不丢失.不重传,从而保证交易的完整性. LMT NEW PBS的队列通信 LMT NEW PBS的队列通信用到了两个服务器:消息队列服务器和消息转发服务器.消息队列服务器用于对消息进行出队入队管理,消息转发服务器用于将消息从队列中取出,转发给服务器

LMT NEW PBS作业排队系统

LMT NEW PBS作业排队系统 LMT NEW PBS是高度开放的智能化工作载荷管理解决方案,使企业实现最大化投资回报率.它广泛使用的网格优化计算.云计算.按需计算和集群管理的软件环境,能够让企业轻松实现分布式计算资源共享,无论在缩短产品上市周期还是改进产品质量方面达到并维持竞争性优势.凭借"按需使用"的商业模式,LMT NEW PBS提供了超越传统软件许可模式的高价值和灵活性.并应用这些解决方案和工具帮助航空航天业实现高效便捷高性能计算.        目前,面临各种新技术及竞争

LMT NODE PBS作业排队系统的队列通信机制

LMT NODE PBS作业排队系统的队列通信机制 LMT NODE PBS作业排队运算系统提供了一种队列通信机制,允许消息按某种排队规则存储到持续介质或非持续介质(如内存)中,然后再转发给其它处理进程.这种存储转发机制可以保证在两个通信实体之间传递的消息不丢失.不重传,从而保证交易的完整性. LMT NODE PBS的队列通信 LMT NODE PBS的队列通信用到了两个服务器:消息队列服务器和消息转发服务器.消息队列服务器用于对消息进行出队入队管理,消息转发服务器用于将消息从队列中取出,转发

LMT NODE PBS作业排队系统——高效分配网格资源

LMT NODE PBS作业排队系统--高效分配网格资源 网格是一个集成的计算与资源环境,充分吸收各种计算资源,并将它们转化成一种随处可得的.可靠的.标准的同时还是经济的计算能力.与传统的网络资源不同,网格资源具有异构性.动态性和自治性的特点. 网格资源的这些特性给网格资源自身的管理带来了实现上的困难和不可控性.同时为了满足高性能计算的目的,必须提供高效的资源管理服务.网格系统的资源管理负责决定作业请求CPU服务等待时间.作业的内存分配.以及怎样平衡计算负载等多方面的问题.资源管理同时负责在所有