天河2号相信大家都知道啦,2013和2014 TOP500中都位列榜首,是目前最快的超算,比第2名泰坦-Titan快1倍,天河2号是使用什么样的架构获得此能力的呢,下面我们来了解一下。
天河二号的型号为TH-IVB-FEP,使用中央处理器及协处理器的运算架构布局:
天河二号共有16,000个运算节点,每节点配备两颗Xeon E5 12核心的中央处理器、三个Xeon Phi 57核心的协处理器(运算加速卡,即MIC卡)。累计32,000颗Xeon E5主处理器和48,000个Xeon Phi协处理器,共312万个计算核心。
*处理器/CPU:
节点中的CPU 为Intel 2.2GHz的Xeon E5-2692v2 12核心处理器,基于英特尔Ivy Bridge微架构(Ivy Bridge-EX核心),采用22奈米制程,峰值效能0.2112TFLOPS。
*协处理器/APU:
运算加速使用基于英特尔集成众核架构的Xeon Phi 31S1P协处理器,运行时钟频率为1.1GHz,拥有57个x86核心(实际上拥有61个核心,因启用全部核心时会存在运算周期协调冲突之问题,因此先遮蔽4个x86核心),每个x86核心籍由特殊的超执行绪技术能运作2个线程,产生峰值效能为1.003TFLOPS。
*内存:
每个节点拥有64GB主存,而每个Xeon Phi协处理器板载8GB内存,故每节点共88GB内存,整体总计内存1,375TiB (1.34PB)。
其实板载协处理器本身就是1台独立的机器,有独立的操作系统,其板载内存也是供其独立使用,和节点的内存完全分隔开,两者间不存在共享内存,所以节点是无法使用协处理器板载内存,同理协处理器也无法使用节点的内存。
*外存:
12.4PiB容量的硬碟阵列
*机柜/机架/主板、运算阵列
- 主板、机架与机柜均由浪潮集团制造,共有170个机柜,包括125个计算机柜、8个服务机柜、13个通信机柜和24个存储机柜,每个机柜容纳4个机框,每个机框容纳16块主板,每个主板设置有两个计算节点。
- 各运算阵列中,每块主板上分为APU模组和CPM模组两部分,APU部分承载5块Xeon Phi,CPM部分承载1块Xeon Phi+4颗Xeon E5。注意运算阵列是由多节点组成的,一块主板有4个CPU+6个APU,一个节点包括2个CPU+3个APU,就是说一块主板上有2个节点,16,000个节点需要8,000块主板,这还没包括前端处理器。
- APU模组和CPM模组之间以CPU内部提供的PCI-E 3.0 16x介面进行连接,但实际由于Xeon Phi的硬体限制,仅支援至PCI-E 2.0 16x,单通道资料传输速率为10Gbps。
*前端处理器
计算节点前端处理器为4096颗中国国防科技大学研发的FT-1500 16核心SPARC V9架构的处理器,40奈米制程,运作时脉1.8GHz,热设计功耗65瓦,峰值效能144GFLOPS。而Intel Xeon E5-2692v2 22nm 12核 2.2GHz 峰值效能211GFLOPS。
前端处理器用途是什么呢?要知道天河2号有这么多处理器每个处理器又有多个核,要将一个运算任务大致平均分配给众多的处理器,这需要任务调度来管理分配时间段、执行次序等,指定该任务什么时候运行、需要多少个处理器,以及运行在哪些处理器上。有点类似于飞行控制中心对飞机安排调度或车辆管理中心对车辆调度,不过它按排调度的是处理器而已。
这是天河2号为数不多能使用到国产处理器的地方。这也是国产麒麟操作系统(基于linux源码修改而成)存在的地方。
*网络连接
天河2号互联方面采用自主研发的 Express-2 内部互联网络,高速互联架构使用光电混合传输技术,其有13个交换机,而每个交换机有576个端口。连接介质为光电混合。具体控制器是名为NRC的ASIC专用集成电路,其采用90nm工艺,2577 pin。单个NRC的吞吐能力为2.56Tbps.而在终端方面网络接口也采用类似结构的NIC,但规模稍小,675 pin,其采用PCIE 2.0方式连接,传输速率为6.36GB/s。并且在12000节点的情况下延迟也很低,仅为85us。
这是另一处使用到国产芯片地方。
*操作系统及相关软件:
- RedHat Enterprise Linux Server release 6.2(kernel 2.6.32-220定制版):16,000个运算节点均安装此系统,后计划将6400个节点改为麒麟 Kylin Cloud Linux(Ubuntu中国定制版)
- OpensStack(Canonical发行版):包括中国定制版的Ubuntu Server(即Kylin Cloud Linux)、Ubuntu OpenStack、Ubuntu Juju(云服务流程引擎)。OpenStack现已经运行在256个节点上,未来将会部署到超过6400个节点。
- 麒麟操作系统:基于linux源码修改而成,在前端的国产飞腾处理器(FT-1500)上运行,用于运算任务排程管理。作业管理系统使用SLURM。
未完,待续......