如何建立一个GPU加速的研究计算集群(一)

世界上某些最快的计算机是集群组成的。集群是有多个计算机通过高速网络连接起来的一个计算系统。集群计算机比单台计算机可以达到更高的可用性,可靠性和伸缩性。随着对基于GPU的高性能计算采用越来越广,英伟达GPU逐渐成为世界上最厉害的超级计算集群的一部分。世界前500的超级计算机中,包括差不多50个采用了英伟达的的GPU,并且目前世界上最快的计算机泰坦,使用了大约18000个英伟达开普勒GPU。

在这个帖子中,我将会一步一步的介绍设计、部署和管理一个小型的GPU集群整个过程。我会介绍GPU集群的组成部分以及管理的软件技术堆栈。目标是使用一个最少的代价建立一个GPU集群。

构建一个小型研究的GPU计算集群的动机是多种多样的:

1.对生产系统的性能有一个感觉和预估。

2.将你的应用移植到GPU分布式计算上去。

3.调整GPU和CPU的平衡。

4.将集群作为一个开发平台

5.对一个小型的GPU集群是相对小的。

下图展示了建立一个小型GPU集群的步骤。

选择硬件-》确保空间和电源功率还有冷却-》组装-》管理节点安装-》计算节点安装-》管理监控-》运行程序

我们现在了解下这个过程的细节:

1. 选择硬件

选择正确的硬件共有两个步骤:

步骤一:

a).节点硬件配置。这是集群节点的详细规格:每个节点包含下面的组件。

1.CPU

2.主板,该主板拥有两个PCIe x16 Gen2/3 接口。主要是为了teslaGPU.另外要有一个PCIex8的插槽,主要是为了其他的显卡的用的。

b).两个网卡插口

c).最少最少16-24G DDR3 RAM

d).电源。应该能够扛得住CPU和GPU的消耗。

e).二级存储,固态硬盘或者是SATA。

GPU板子应该能够允许两个PCI插槽插入,所以确保这些插槽能够分开插下。

步骤二:选择正确的GPU。一旦你决定好了机器的配置,你应该也决定好了用哪个芯片的GPU。GPU的品牌是非常重要的。基于开普勒的英伟达特斯拉GPU有两个主要的品牌。

a). 特斯拉工作站产品(C系列) 是主动降温的GPU板子,你只用将他们插入到桌面计算机中就行了。它需要两个6针的电源或者一个8针的电源。

b).服务器产品(M系列)是被动降温的GPU板子,安装在单独的服务器上。

2.分配空间,电力和降温。

这一部分不再细说,主要是合理安排机箱和机架的空间。

3.组装物理硬件

未完待续…

时间: 2024-10-02 19:46:27

如何建立一个GPU加速的研究计算集群(一)的相关文章

集群主要分成三大类 (高可用集群, 负载均衡集群,科学计算集群)

转自:http://blog.csdn.net/nick_php/article/details/52187905 高可用集群( High Availability Cluster) 负载均衡集群(Load Balance Cluster) 科学计算集群(High Performance Computing Cluster) 1.高可用集群(High Availability Cluster) 常见的就是2个节点做成的HA集群,有很多通俗的不科学的名称,比如"双机热备", "

网格计算, 云计算, 集群计算, 分布式计算, 超级计算

网格计算, 云计算, 集群计算, 分布式计算, 超级计算 整体来说都有将任务分割.运算.组合,只是协同和处理的重点不同: 超级计算强调的是高并行计算能力,应用设备多是超级计算机如天河一号,是infiniband的高并行处理架构,实现总线级协同,一般采用计算能力更强的GPU而非CPU:集群计算和分布式计算是相对于设备部署结构来说,这种计算相对超算来说,对于计算的并行处理及响应要求较低,需要实现的是网络环境下的协同,实现的效果受网络环境影响.网格计算是集群计算和分布式计算与超级计算中间的产物,是在原

云计算、分布式计算、并行计算、网格计算、集群

转自:http://blog.csdn.net/cuidiwhere/article/details/7884545 并行计算:并行计算是相对于串行计算来说的.可分为时间上的并行和空间上的并行. 时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算.例如基于CUDA编程.并行计算的目的就是提供单处理器无法提供的性能(处理器能力或存储器),使用多处理器求解单个问题. 总结:并行的主体 -- 处理器:进程/线程级并行. 分布式计算:分布式计算研究如何把一个需要非常巨大的计算能

一个分布式服务器集群架构方案

http://homeway.me/ 0x01.大型网站演化 简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率. 集群主要分为:高可用集群(High Availability Cluster),负载均衡集群(Load Balance Cluster,nginx即可实现),科学计算集群(High Performance Computing Cluster). 分布式是指将不同的业务分布在不同的地方:而集群指的是将几台服务器集中在一起,实现同一

集群调度技术研究综述

1  引言 什么是调度?个人理解最初的调度是和时间有关的.时间作为唯一的不可逆转的资源,一般是划分为多个时间片来使用(如下图所示).就计算机而言,由于CPU的速度快的多,所以就有了针对CPU时间片的调度,让多个任务在同一个CPU上运行起来.这是一个假象,某一时刻CPU还是单任务运行的. 后来为了在同一时间进行更多的任务,需要在同一时间内干多件事情.如果多个人或者多个处理器为了完成一个任务目标一起工作,就需要一个协调者.这就是一个分布式系统,就单个数据中心或者小范围来说,就是集群.如果让一个分布式

ceph分布式存储实战(2)——从0开始创建第一个ceph集群

一.在每台节点的/etc/hosts文件中增加如下内容 192.168.89.101 ceph-node1 192.168.89.102 ceph-node2 192.168.89.103 ceph-node3 二.节点1配置免密码登录其他节点 [[email protected] ~]# yum install openssh-clients #安装ssh客户端 [[email protected] ~]# ssh-keygen #生成密钥对 [[email protected] ~]# ss

mqtt协议-broker之moqutte源码研究六之集群

moquette的集群功能是通过Hazelcast来实现的,对Hazelcast不了解的同学可以自行Google以下.在讲解moquette的集群功能之前需要讲解一下moquette的拦截器,因为moquette对Hazelcast的集成本身就是通过拦截器来实现的. 一.拦截器io.moquette.spi.impl.ProtocolProcessor类里面有一个BrokerInterceptor类,这个类就是broker拦截器,这个对象,在processConnect,processPubAc

Window Server 2019 配置篇(3)- 建立hyper-v集群并在其上运行win10 pro虚拟机

上次讲到我们的域里有了网关跟DHCP,这次我们要在域中建立hyper-v集群并在其上运行win10 pro虚拟机 那么什么是hyper-v集群呢? 就是两个及两个以上的运行hyper-v服务的服务器建立的可以进行故障转移的集群 除了这些,hyper-v上运行的虚拟机的虚拟盘也要运行在集群中iscsi的共享磁盘中,这样才能保证故障转移的可能性 那么话不多说,我们建立三个虚拟机: hyper-v-1 ip 192.168.10.30 hyper-v-2 ip 192.168.10.40 iscsi 

Opencv直方图计算是否需要Gpu加速?

众所周知,Gpu加速技术对图像处理具有很大的影响,在前面的博客中通过对比验证了Gpu加速技术对图像滤波的高效率.但是Gpu技术并不是万能的,本文通过比较发现Gpu计算直方图的效率并没有传统计算方法效率高.下面表格是对比结果,时间是通过运行20次求平均值而得,后面给出相应的比较代码.由结果可以看出Cpu计算直方图是运行效率更高,当对图片数据库进行训练时,如果有5000幅图片需要处理,采用Cpu计算方式可以节省75分钟左右的时间,节省的时间还是相当可观的. Gpu与Cpu计算直方图效率对比 方式 C