如何建立一个GPU加速的研究计算集群(一)

世界上某些最快的计算机是集群组成的。集群是有多个计算机通过高速网络连接起来的一个计算系统。集群计算机比单台计算机可以达到更高的可用性，可靠性和伸缩性。随着对基于GPU的高性能计算采用越来越广，英伟达GPU逐渐成为世界上最厉害的超级计算集群的一部分。世界前500的超级计算机中，包括差不多50个采用了英伟达的的GPU，并且目前世界上最快的计算机泰坦，使用了大约18000个英伟达开普勒GPU。

在这个帖子中，我将会一步一步的介绍设计、部署和管理一个小型的GPU集群整个过程。我会介绍GPU集群的组成部分以及管理的软件技术堆栈。目标是使用一个最少的代价建立一个GPU集群。

构建一个小型研究的GPU计算集群的动机是多种多样的：

1.对生产系统的性能有一个感觉和预估。

2.将你的应用移植到GPU分布式计算上去。

3.调整GPU和CPU的平衡。

4.将集群作为一个开发平台

5.对一个小型的GPU集群是相对小的。

下图展示了建立一个小型GPU集群的步骤。

选择硬件-》确保空间和电源功率还有冷却-》组装-》管理节点安装-》计算节点安装-》管理监控-》运行程序

我们现在了解下这个过程的细节：

1. 选择硬件

选择正确的硬件共有两个步骤：

步骤一：

a).节点硬件配置。这是集群节点的详细规格：每个节点包含下面的组件。

1.CPU

2.主板，该主板拥有两个PCIe x16 Gen2/3 接口。主要是为了teslaGPU.另外要有一个PCIex8的插槽，主要是为了其他的显卡的用的。

b).两个网卡插口

c).最少最少16-24G DDR3 RAM

d).电源。应该能够扛得住CPU和GPU的消耗。

e).二级存储，固态硬盘或者是SATA。

GPU板子应该能够允许两个PCI插槽插入，所以确保这些插槽能够分开插下。

步骤二：选择正确的GPU。一旦你决定好了机器的配置，你应该也决定好了用哪个芯片的GPU。GPU的品牌是非常重要的。基于开普勒的英伟达特斯拉GPU有两个主要的品牌。

a). 特斯拉工作站产品（C系列) 是主动降温的GPU板子，你只用将他们插入到桌面计算机中就行了。它需要两个6针的电源或者一个8针的电源。

b).服务器产品（M系列）是被动降温的GPU板子，安装在单独的服务器上。

2.分配空间，电力和降温。

这一部分不再细说，主要是合理安排机箱和机架的空间。

3.组装物理硬件

未完待续…

时间： 2024-10-02 19:46:27

如何建立一个GPU加速的研究计算集群(一)

如何建立一个GPU加速的研究计算集群(一)的相关文章

集群主要分成三大类（高可用集群，负载均衡集群，科学计算集群）

网格计算, 云计算, 集群计算, 分布式计算, 超级计算

云计算、分布式计算、并行计算、网格计算、集群

一个分布式服务器集群架构方案

集群调度技术研究综述

ceph分布式存储实战（2）——从0开始创建第一个ceph集群

mqtt协议-broker之moqutte源码研究六之集群

Window Server 2019 配置篇（3）- 建立hyper-v集群并在其上运行win10 pro虚拟机

Opencv直方图计算是否需要Gpu加速？