如何建造一台超级计算机

你需不需要一台每秒可以进行数百万亿次浮点运算的机器?或者,你想不想知道点关于你家地下室里的超级计算机是如何上电运行的趣事儿?建造一台属于自 己的计算集群——亦即超级计算机——是每个闲得发慌还有钱烧的专业极客都能做到的事情!从技术上来讲,一台现代多处理器超级计算机实际上是一个计算机网 络,这些计算机并行地工作以解决特定的计算问题。本文将从硬件和软件两个角度为你解开建造一台超级计算机的神秘面纱。

Steps

1.首先要确定硬件部件和所需要的资源

你需要一个头节点(head node),至少一打的计算节点(compute node),一台以太网交换机,一个电源分配单元(power distribution unit)和一个服务器机架。计算一下电力消耗,冷却需求和占地需求。同样,你需要确定你的私有网络的IP地址段,节点的命名,预计使用的软件包以及搭建 服务集群所用的技术(后面会有更多解释)。

  • ●尽管硬件相当昂贵,但是这里列出的软件都是免费的,并且大多都是开源的;
  • ●如果你想要了解一下你的超级计算机理论上能有多快,你可以用这个工具:http://hpl-calculator.sourceforge.net/

2.建立计算节点

你需要自己组装计算节点,或者你也可以使用预配置的服务器。

  • ●选择一款能够最大化空间、冷却和能源消耗效率的机架式服务器;
  • ●或者,你可以使用一打左右闲置的过时服务器——它们集合在一起工作的性能要比它们独立运行时的总和还多,而且还能省你一大笔钱!整个系统的处理 器、网络适配器、主板应该是同一型号的,这样才能达到最佳运行效能。当然了,别忘了给每个节点配内存和硬盘,并且至少给头节点配一台光驱。

3.将服务器装在机架上

安装的时候从下面开始,这样可以避免机架头重脚轻。你可能会需要朋友的帮助才能完成这件事——这么多的服务器将非常的重,把它们放到机架的滑轨上会非常困难。

4.在机架顶端安装以太网交换机

现在来配置交换机:允许9000字节的大的帧,将IP地址设置为你在第一步里面确定的静态地址,关闭例如SMTP嗅探这样不必要的路由协议。

5.安装能源分配单元

根据目前你的节点的最大需求,可能220V就能满足你的高性能计算需求了。

6. 一切都安装妥当之后,就可以开始配置环节了

Linux是高性能计算集群(HPC Cluster)操作系统的事实标准,这不仅因为Linux是科学计算的理想环境,也是由于在数以百计甚至千计的节点上安装的时候,Linux不会产生任何花费。设想一下,在如此多的节点上安装Windows会花掉你多少钱呢?

  • ●从更新主板BIOS的固件开始,将所有节点的BIOS固件都更新至最新的版本;
  • ●在每个节点上都安装好你喜欢的Linux发行版,头节点需要安装队图形界面的支持。比较流行的选择,包括CentOS、OpenSuse、Scientific Linux、RedHat以及SLES;
  • ●作者极力推荐你使用Rocks Cluster Distribution来搭建计算集群。除了它已经安装好计算集群需要使用的所有工具外,Rock还提供了一种通过PXE和RedHat的“Kick Start”来进行批量部署的方案。

7. 安装消息传送界面、资源管理器以及其他必须的库

如果上一步里你没有选择Rock做为你的节点的操作系统,那么现在你需要手动设置并行计算机制所必需的软件。

  1. ●首先,你需要一个便携的bash管理系统,例如Torque Resource Manager,这些软件允许你划分以及分配计算任务;
  2. ●如果安装了Torque Resource Manager,那么你还需要Maui Cluster Scheduler来完成设置;
  3. ●其次,你需要安装消息传送界面(message passing interface),用来在不同的计算节点的进程之间共享数据。不用想了,OpenMP是你的菜!
  4. 最后,不要忘了用多线程的数学库及编译器来编写你的计算任务。我是不是说过其实你只需要Rocks?

8.将所有的计算节点接入网络

头节点负责将任务分配到计算节点,计算节点再把结果返回回来,节点间的消息传递也是如此,所以当然是越快越好了。

  • ●使用私有网络将集群中的所有节点互联起来;
  • ●头节点其实还充当局域网里的NFS、PXE、DHCP以及NTP服务器;
  • ●你必须将该网络从公网中分离出来,这样可以保证该网络中的广播报文不会影响到其他的网络;

9.对集群进行测试

在你把你强大的Top500计算集群交付给客户之前,你还要测试一下它的性能。HPL(High Performance Lynpack)评测软件包是测试集群的计算速度的常见选择。你需要从源代码编译它,编译的时候根据你选择的架构,打开所有可能的优化选项。

  • ●当然了,在编译源代码的时候,你需要打开所有可能的编译优化选项。例如,如果你使用的是AMD的CPU,编译Open64的时候,请加上-0fast优化选项;
  • ●把跑分结果和TOP500.org上最快的计算机做个比较!

如何建造一台超级计算机

时间: 2024-08-10 21:18:38

如何建造一台超级计算机的相关文章

有了 Linux,你就可以搭建自己的超级计算机

几乎所有超级计算机上运行的系统都是 Linux,其中包括那些由树莓派(Raspberry Pi)板卡和 PlayStation 3游戏机组成的计算机. 超级计算机是一种严肃的工具,做的都是高大上的计算.它们往往从事于严肃的用途,比如原子弹模拟.气候模拟和高等物理学.当然,它们的花费也很高大上.在最新的超级计算机 Top500 排名中,中国国防科技大学研制的天河 2 号位居第一,而天河 2 号的建造耗资约 3.9 亿美元! 但是,也有一个超级计算机,是由博伊西州立大学电气和计算机工程系的一名在读博

2018年最新榜单!全球最快Top10超级计算机花落谁家?!

美国重登500强榜首,这是一份每年更新两次的世界最快超级计算机排行榜.自2012年以来,还没有一个美国系统排在榜单的首位.前两年,中国的"神威·太湖一号"名列榜首.在此之前的三年里,中国的"天河二号"系统一直是世界第一.中国拥有202个超级计算机系统,仍然是世界500强超级计算机数量最多的国家. 正如预期的那样,美国在每年两次更新一次的全球最快超级计算机排行榜上重新夺回了榜首的位置,超过了中国,成为全球超级计算机的领头羊. 尽管美国再次跻身前500强,但中国在这一榜

一文了解云计算,全世界一台计算机

云计算,这是自2008年全球金融危机以来全世界最热的词汇之一.世界各国.大街小巷,上至国家元首.下至家中老人,几乎全社会所有人都知道有这样一种新科技,叫"云计算". 自从2006年,亚马逊公司对外发布了一种名为"Amazon Web Services(AWS)"(亚马逊网络服务)的新型互联网服务以来,云计算的概念就逐渐被全球所熟知和接受.此后,几乎所有全球的高科技公司都卷入了云计算的大潮中,造就了一批明星公司或再造公司成为市场明星:包括中国的阿里云.腾讯云.百度云.

计算机语言发展史

软件的产生始于早期的机械式计算机的开发.从19世纪起,随着机械式计算机的更新,出现了穿孔卡片,这种卡片可以指导计算机进行工作.但是直到20世纪中期现代化的电子计算机出现之后,软件才真正得以飞速发展.在世界上第一台计算机ENIAC上使用的也是穿孔卡片,在卡片上使用的是专家们才能理解的语言,由于它与人类语言的差别极大,所以我们称之为机器语言.也就是第一代计算机语言.这种语言本质上是计算机能识别的唯一语言,但人类却很难理解它,以后的计算机语言就是在这个基础上,将机器语言越来越简化到人类能够直接理解的.

关于量子计算机的一些整理 (精心整理原创) (一)

首先祝贺中国在量子计算方面的突出进步. "5月3日,中国科技大学潘建伟教授宣布,研究团队在去年首次实现十光子纠缠操纵的基础上,构建了世界首台超越早期经典计算机的单光子量子计算机.量子计算利用量子相干叠加原理,计算能力随可操纵的粒子数呈指数增长. " 既然是超越了早期经典计算机,作为软件计算机方向的一只程序猿就不得不转头学习了解关于量子物理学的知识,遂整理一发,如有纰漏,欢迎指出 一起进步! 支持转载.请注明出处哈,谢! 首先我们回顾一下计算机的发展史,个人认为计算机的历史要追溯到最早的

Google的量子计算之梦:比传统计算机快上1亿倍?

Google的量子计算之梦:比传统计算机快上1亿倍? 本文来自technologyreview,作者 Tom Simonite ,机器之心编译出品,参与:salmoner,薛矽,汪汪,微胖. 近日,谷歌宣布他们的量子计算机比传统计算机快上1亿倍,有人欢呼雀跃,有人提出质疑.让我们来看看背后的故事吧,看看物理学家John Martinis 如何帮谷歌实现炙手可热的量子计算之梦.他或许正手握着量子计算的圣杯,本文选自麻省理工科技评论. Martini团队追寻的神奇计算机 John Martinis用

第8章 云计算

8.1云计算是物联网发展的基石 8.1.1云计算是物联网的基石   2011年1月18日,“打造中国云—云计算促进产业转型升级” 研讨会在南京雨花软件园管委会多功能厅举行.中国工程院院士李德毅,南京市副市长.雨花台区委书记李侃桢,南京邮电大学副校长朱洪波,雨花台区副区长薛国安,以及来自赛迪集团.微软中国.中兴通讯.区科技局.区商务局.雨花软件园等企事业单位的领导.专家六十余人参加了本次会议,就云计算产业发展及促进产 业转型升级展开了研讨. 在研讨会上中国工程院院士李德毅的演讲将大家带入了云计算的

程序史记:从巴贝奇、爱达到图灵

书架上一直放在一本<信息简史>,最近终于读完了.这是一本从信息的视角来描述其进化史的书,一本充满了技术性描述的科普性书籍.也不乏一些有趣的故事,其中就有那么几个人,他们实际是和计算机和程序有关,而计算机和程序在今天这个信息时代早已是信息的载体和处理者了. 十八世纪 查尔斯·巴贝奇(Charles Babbage),90 后,恩,一个十八世纪的 90 后(1791 年生),出生于工业革命的高峰时期.那时英国工业革命的巅峰作品 -- 蒸汽机,在他出生前没几年才刚刚被发明出来. 那时,是一个崇尚机械

马云的阿里正在实践《失控》里人类下一轮进化:连接

1994年写成的<失控>讲了一件事情:连接.按<失控>的核心观点,连接是人类下一轮的进化方式,从以个人为单元的社会进化到以群体为单元的社会,连接是主要的技术实现手段.<失控>还有一个观点,就是现在的人们通过连接成群体来实践下一轮进化,但进化之后的群体智能是什么样子,这超越了现在人们的想象.因此,不能用今天的经验来预测明天的世界,连接之后的群体智能将在连接的过程中自然而然展现出来. 可以说腾讯率先在消费人群中实践了<失控>的思想,这也成就了微信的成功.后来,马