世界上某些最快的计算机是集群组成的。集群是有多个计算机通过高速网络连接起来的一个计算系统。集群计算机比单台计算机可以达到更高的可用性,可靠性和伸缩性。随着对基于GPU的高性能计算采用越来越广,英伟达GPU逐渐成为世界上最厉害的超级计算集群的一部分。世界前500的超级计算机中,包括差不多50个采用了英伟达的的GPU,并且目前世界上最快的计算机泰坦,使用了大约18000个英伟达开普勒GPU。
在这个帖子中,我将会一步一步的介绍设计、部署和管理一个小型的GPU集群整个过程。我会介绍GPU集群的组成部分以及管理的软件技术堆栈。目标是使用一个最少的代价建立一个GPU集群。
构建一个小型研究的GPU计算集群的动机是多种多样的:
1.对生产系统的性能有一个感觉和预估。
2.将你的应用移植到GPU分布式计算上去。
3.调整GPU和CPU的平衡。
4.将集群作为一个开发平台
5.对一个小型的GPU集群是相对小的。
下图展示了建立一个小型GPU集群的步骤。
选择硬件-》确保空间和电源功率还有冷却-》组装-》管理节点安装-》计算节点安装-》管理监控-》运行程序
我们现在了解下这个过程的细节:
1. 选择硬件
选择正确的硬件共有两个步骤:
步骤一:
a).节点硬件配置。这是集群节点的详细规格:每个节点包含下面的组件。
1.CPU
2.主板,该主板拥有两个PCIe x16 Gen2/3 接口。主要是为了teslaGPU.另外要有一个PCIex8的插槽,主要是为了其他的显卡的用的。
b).两个网卡插口
c).最少最少16-24G DDR3 RAM
d).电源。应该能够扛得住CPU和GPU的消耗。
e).二级存储,固态硬盘或者是SATA。
GPU板子应该能够允许两个PCI插槽插入,所以确保这些插槽能够分开插下。
步骤二:选择正确的GPU。一旦你决定好了机器的配置,你应该也决定好了用哪个芯片的GPU。GPU的品牌是非常重要的。基于开普勒的英伟达特斯拉GPU有两个主要的品牌。
a). 特斯拉工作站产品(C系列) 是主动降温的GPU板子,你只用将他们插入到桌面计算机中就行了。它需要两个6针的电源或者一个8针的电源。
b).服务器产品(M系列)是被动降温的GPU板子,安装在单独的服务器上。
2.分配空间,电力和降温。
这一部分不再细说,主要是合理安排机箱和机架的空间。
3.组装物理硬件
未完待续…