各种加速卡 异构计算

异构计算:

异构计算要使用不同类型的处理器来处理不同类型的计算任务。常见的计算单元包括CPU、GPGPU、GPDSP、ASIC、FPGA和其它类型的众核处理器等。

目前有很多加速卡或者协处理器,用于增加系统性能,常见的有:

GPGPU 是最常见的加速卡,通过PCI-e相连。 GPU 最早是用于图形处理卡,即显卡,后来慢慢发展成为加速卡。2010年,天河一号使用CPU+GPU异构结构获得TOP500第一。当时,天河一号采用的是GPU是AMD的。 天河一号A采用的是Nvidia的GPU卡。

Xeon Phi 是intel生产的协处理器,通过PCI-e 相连。目的是于GPU抗衡,因为Intel显卡不是优势。天河二号采用的便是 Xeon E5 + Xeon Phi。

FPGA 加速卡在2014年也提出了。在SC14, Xilinux便展示了Alpha Data 公司生产的 ADM-PCIE-7V3 FPGA加速板,通过PCIe和host cpu相连,加载Virtex 7系列。FPGA最初的应用是为了验证逻辑设计,即作为开发板,即用于验证逻辑设计,然后将该设计流片,生成ASIC芯片。现在,FPGA已经作为加速卡(即插即用)!!

GPDSP  因为美国Intel禁售Xeon Phi,因此国防科大提出GPDSP作为协处理器,目前还在酝酿中。

下面是转载:

****************************************************************************************************

异构计算是一种分布式计算,它或是用能同时支持SIMD方式和MIMD方式的单个独立计算机,或是用由高速网络互连的一组独立计算机来完成计算任务。采用异构计算架构的超算会使用至少2种类型的处理器,其中异构计算架构中通用CPU负责逻辑复杂的调度和串行任务,加速器负责并行度高的任务,实现计算加速。具体来说,采用异构计算架构的超算在运算中既使用处理器,又使用GPU或众核芯片等加速器。以美国泰坦和中国天河2号为例,泰坦有18688个运算节点,每个运算节点由1个16核心AMD-Opteron-6274处理器和1个NVIDIA-Tesla-K20加速器组成,共计299008个运算核心;天河2号有16000个计算节点,每个节点由2片Intel-E5-2692和3片Xeon-Phi组成,共使用了32000片Intel-E5-2692和48000片Xeon-Phi。除了泰坦和天河2号之外,曙光6000和天河1号也采用的是异构计算架构。

大规模科学计算一般都能做到高度并行化,能将计算任务拆分给海量的小核心来并行执行。因此,在加速器选择方面就产生了三个方案:

一是用GPGPU做加速器。因为GPU是大宽度并行结构(GPU拥有海量SIMD计算单元),高端GPU的资源集成度非常高,能很容易做到非常高的理论双精浮点计算能力。以英伟达最新的加速卡K80为例,该加速卡功耗300W,双精浮点高达2.9TFlops。

二是用众核芯片做加速器。一方面添加浮点、向量指令(比如Intel的AVX、FMA,龙芯的LoongSIMD)提升浮点性能。另一方面堆砌核心数量,比如Intel的第一代Xeon-PHI就有60核,双精浮点性能为1T,功耗为300W;龙芯也曾经有过16核的龙芯3C的方案,但在工作进度完成大半后被迫放弃。

三是用GPDSP做加速器。国防科大自主研发了矩阵2000以替代Intel的Xeon-PHI,矩阵2000双精浮点达2.4T,功耗200W,虽然离第二代至强PHI双精浮点3T的性能有差距,但性能和性能-功耗比都足以笑傲天河2号正在使用的Intel第一代至强PHI,成为天河2A升级计划中至强PHI计算卡的理想替代品。

****************************************************************************************************

GPGPU和GPDSP的优缺点

GPU的大宽度并行结构能做到非常高的理论双精浮点计算能力(英伟达的加速卡K80双精浮点高达2.9TFlops)。但因CPU和GPU的编程模型是不一致,导致GPGPU在编程方面很不方便,只能跑OpenCL、OpenACC、CUDA代码,不能跑OpenMP并行处理的代码。加上GPGPU作为加速卡和CPU是不共享内存,需要程序员显式拷贝,进而导致数据访问速度变慢。因此,GPGPU相对而言编程麻烦、效率相对而言并不高、通用性差,但是性能-功耗比高。

GPDSP是国防科大首创,是应对美国禁售Xeon-PHI的技术储备和秘密武器。国防科大最迟在2013年就开始着手GPDSP的研发工作。今年发布的矩阵2000采用40nm制程工艺,拥有16核,主频1G,双精浮点2.4T,功耗为200W。因此,矩阵2000虽然在性能上因受制于国内的制造工艺和设计水平,在性能上不如GPGPU,但在性能-功耗上已经略优于GPGPU(2.4T/200W对比 2.91T/300W),而且已经大幅优于天河2号目前使用的第一代至强PHI计算卡(2.4T/200W 对比

1T/300W)。

GPDSP相对于GPGPU更接近于CPU,可以独立运行OS(Linux或其它实时内核),在编程方面比GPGPU稍微容易一些(其实相对于CPU两者编程难度都很大)。矩阵2000也是带分支能力的众核处理器,和Xeon-

PHI是相似类型计算卡,理论上讲,扩充一些GPDSP编译指导语句也能跑OpenMP代码。当然,GPDSP也能跑OpenCL、OpenACC并行处理代码(异构代码)。

因此,GPDSP虽然在性能上不如GPGPU,但在性能-功耗上已经略优于GPGPU(2.4T/200W 对比

2.91T/300W),在效率和通用性方面优于GPGPU。

GPU在做并行计算时,传统渲染架构中的TMU、ROP等特性毫无用处,反而占用了晶体管资源。DSP是纯粹向量机,不像GPU那样有光栅化渲染占晶体管,影响管线结构。

虽然GPU是大宽度并行结构,高端GPU的资源集成度非常高,能很容易做到非常高的理论双精浮点计算能力,但在彼此工艺和集成能力相当的情况下,舍弃图形部分的DSP的晶体管效率更高,而且访存效率也高于GPU传统图形渲染管线那种绕弯子的访存方式。

因此,GPDSP在效率方面比GPGPU具有先天优势,很有可能就是借鉴了GPU的Shader执行部分的管理和执行结构,但又没有GPU那么多历史遗留框架造成的负面影响。国防科大在天河1和天河2的研制过程中,在加速器的选择方面把众核处理器和GPU都试了一遍,相信选择GPDSP路线是国防科大深思熟虑后的结果——中国在制造工艺和超大集成度芯片设计能力不如国外英伟达、IBM、Intel等国外巨头的时候,走GPDSP路线是缩短和国外产品在绝对性能上差距的有效途径。

根据国防科大公布的资料,因保留了天河2号的主体I/O结构,计算节点处理器依旧使用E5-2692V2,计算节点增加到18000个,按照一个计算节点需要2个E5和3个加速器来计算,天河2A需要36000片E5和54000片矩阵2000,仅54000片矩阵2000理论浮点峰值可以达到129.6Pflops。

国防科大若要将蓝图变成现实,技术难点已经不再是芯片的设计和制造,而是软件堆栈,包括GPDPS驱动程序、操作系统、编译器、基础库等,这是一项工程量巨大的工作。

????? ? ?????
‘ /\_,,,,_/\ ?????
‘┃  ?   ?  ┃
‘┃ΞΞ?ΞΞ┃ 
‘╰┳━┳╯
‘╭┫   ┣╮ 
‘┺┻┻┻┹

时间: 2024-08-05 22:38:36

各种加速卡 异构计算的相关文章

OpenCL学习笔记(一):摩尔定律、异构计算与OpenCL初印象

关于摩尔定律: 摩尔定律1965年提出,晶体管密度是按照每年翻倍发展的,之后的趋势也是这样--每一代芯片的的时钟频率提高50%,而同时工艺节点减小了0.3,功耗密度翻倍(保持功耗相同的情况下,面积0.7*0.7=0.49,因此提高频率使得性能提升了):而在2000年中期之后,出现了物理尺寸更小的器件,意味着,我们没有办法保持功耗密度不变,而同时提高频率,结果我们看到自此之后,时钟频率并没有显著提高,需要通过并行来提高性能,所以多核CPU流行起来.即使是最基本的处理器,超标量和无序指令执行等高级体

PMC Flashtec? NVRAM 闪存加速卡 FAQ

PMC Flashtec? NVRAM 闪存加速卡 常见问题解答 概要 PMC Flashtec NVRAM闪存加速卡系列是一款基于当今市场上最为先进的NVMe控制器的PCI-Express? NVRAM解决方案.该系列产品设立了一个崭新的存储层级,能加速关键型应用. SSD解决方案不断在多级存储空间中的高性能层级取代了传统的HDD.但在延迟.耐久度及高可用性等各方面,还存在着内存与存储层级之间巨大的性能鸿沟.由于应用的需求随着云服务的速度提升而持续加速攀升,依赖易失性内存来实现所需的性能导致的

惠普工作站Z840增加TeslaK40加速卡,驱动叹号

问题故障: 硬件环境:CPU E5-2680V3 两颗,内存128G,硬盘PCIE接口SSD512G+1TB*4(RAID1),显卡K4200,GPU加速卡Tesla-K40,电源功率1250瓦 故障:K40驱动显示为叹号 原因:K40供电不足,(K40供电接口为6+8,安装时只接了6+6) 解决方案:增加一条6转8的转接线

Flashtec NVRAM加速卡以次微秒级延迟实现一千五百万次 IOPS

Flashtec NVRAM加速卡以次微秒级延迟实现一千五百万次 IOPS EnterpriseTech PMC新近为超大规模数据中心的运营者及企业级存储供应商提供了一款崭新的产品,助其打造更为前卫的存储基础设施.PMC公司成立于三十年前,作为一家广受业界认可的半导体公司,过去专营通信领域的设备,于七年前进入企业存储市场.该公司刚刚研发成功了一款基于DRAM主内存与闪存混合的非易失性存储卡,实现了惊人的千万次IOPS(每秒输入/输出次数). 这一速度胜出仅仅基于NAND闪存的PCIe卡十倍之多,

扫盲人工智能的计算力基石--异构计算

摘要: 本文将带领入门读者了解CPU,GPU,FPGA,ASIC和异构计算的一些基本概念和优缺点,希望帮助入门者和爱好者建立基本的芯片概念 人工智能有三要素:算法,计算力,数据.我们今天主要来讲讲计算力. 计算力归根结底由底层芯片提供.按照计算芯片的组成方式,可以分成:同构计算:使用相同类型指令集和体系架构的计算单元组成系统的计算方式.异构计算:使用不同类型指令集和体系架构的计算单元组成系统的计算方式.常见的计算单元类别包括CPU.GPU.ASIC.FPGA等. 我们从CPU开始,讲一个小故事来

异构计算:软硬件结合全栈助力AI大爆发

摘要: 2018杭州云栖大会,异构计算专场精彩回顾 9月20日上午,杭州云栖小镇E1-2会场,备受业界关注的2018年杭州云栖大会异构计算专场召开. 近年来,人工智能持续爆发,对算力提出了更高的要求.异构计算作为大计算时代的解决方案,意在打破传统通用计算的限制,融合不同指令集和体系架构的计算单元,完美支持大计算场景. 让每一个芯片都发挥最大效能 首先,阿里云弹性计算负责人,阿里云研究员余锋,带来了精彩的开场.余锋以摄影来打开话题:每一个镜头都会有特别的定位,在某个场景下合适但是另外场景会力不从心

阿里云异构计算产品是如何保障双11业务的

一年一度的双11购物狂欢节,是全球商家和消费者的盛会,同时也是一场技术的盛会,人脸识别,图片搜索,字符识别,语音识别,8K视频直播,智能推荐,语音助手等最先进的技术手段被广泛使用,为大促的各个环节保驾护航.作为IT基础设施的基石,阿里云ECS为阿里集团双十一业务提供了强有力的计算保障. 阿里云异构计算产品--GPU云服务器和FPGA云服务器,作为ECS产品家族中的一员,今年支撑了集团超过10个BU的双11业务,这当中包括电商业务,新零售业务,视频直播业务以及双11后台支持业务等核心环节. 得益于

CPU+GPU异构计算编程简介

分享一下我老师大神的人工智能教程吧.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!http://www.captainbed.net 异构计算(CPU + GPU)编程简介 1. 概念 所谓异构计算,是指CPU+ GPU或者CPU+ 其它设备(如FPGA等)协同计算.一般我们的程序,是在CPU上计算.但是,当大量的数据需要计算时,CPU显得力不从心.那么,是否可以找寻其它的方法来解决计算速度呢?那就是异构计算.例如可利用CPU(Central Processing

阿里云异构计算发布:轻量级GPU云服务器实例VGN5i

阿里云发布了国内首个公共云上的轻量级GPU异构计算产品--VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务.适用于云游戏.VR/AR.AI推理和DL教学等轻量级GPU计算场景,更细粒度的GPU计算服务. 轻量级GPU云服务器是什么? 轻量级GPU云服务器是一种新的GPU云服务器规格族,是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中.与常规GPU云服务器的区别在轻量级