谈谈GPU与FPGA的一些看法



从几个方面来介绍一下GPU和FPGA。

峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细设计(例如使用深度流水线,retiming等技巧),在电路实现上是基于标准单元库而在critical path上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程,因此可以让许多core同时跑在非常高的频率。相对而言,FPGA首先设计资源受到很大的限制,例如GPU如果想多加几个core只要增加芯片面积就行,但FPGA一旦你型号选定了逻辑资源上限就确定了(浮点运算在FPGA里会占用很多资源)。而且,FPGA里面的逻辑单元是基于SRAM-查找表,其性能会比GPU里面的标准逻辑单元差好多。最后,FPGA的布线资源也受限制(有些线必须要绕很远),不像GPU这样走ASIC flow可以随意布线,这也会限制性能。

除了芯片性能外,GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口(传统的GDDR,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口,而众所周知服务器端机器学习算法需要频繁访问内存。



但是从灵活性来说,FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件(例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器),但是GPU一旦设计完那就没法改动了,没法根据应用去调整硬件资源。目前机器学习大多数适合使用SIMD架构(即只需一条指令可以平行处理大量数据),因此用GPU很适合。但是有些应用是MISD(即单一数据需要用许多条指令平行处理,微软在2014年ISCA paper里面就举了一个MISD用于并行提取feature的例子),这种情况下用FPGA做一个MISD的架构就会比GPU有优势。不过FPGA的编程对于程序员来说并不容易,所以为了能让机器学习程序员能方便地使用FPGA往往还需要在FPGA公司提供的编译器基础上进行二次开发,这些都是只有大公司才能做。

FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比GPU有优势,但是GPU的运行速度(>1GHz)相比FPGA有优势(~200MHz)。



所以,对于平均性能,看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势,那么FPGA在平均性能上会好于GPU。例如,百度在HotChips上发布的paper显示,GPU的平均性能相比FPGA在矩阵运算等标准batch data SIMD bench上远好于FPGA;但是在处理服务器端的少量多次处理请求(即频繁请求但每次请求的数据量和计算量都不大)的场合下,平均性能会比GPU更好。



功耗方面,虽然GPU的功耗(200W)远大于FPGA的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能接近一块GPU,那么FPGA方案的总功耗远小于GPU,散热问题可以大大减轻。反之,如果需要二十块FPGA才能实现一块GPU的平均性能,那么FPGA在功耗方面并没有优势。

能效比的比较也是类似,能效指的是完成程序执行消耗的能量,而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗,但是如果FPGA执行相同程序需要的时间比GPU长几十倍,那FPGA在能效比上就没有优势了;反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用,执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU,那么FPGA的能效比就会比GPU强。

文章参考来源:GPU以及FPGA技术相关网站



版权所有权归卿萃科技 杭州FPGA事业部,转载请注明出处

作者:杭州卿萃科技ALIFPGA

原文地址:杭州卿萃科技FPGA极客空间 微信公众号



扫描二维码关注杭州卿萃科技FPGA极客空间



谈谈GPU与FPGA的一些看法

原文地址:https://www.cnblogs.com/alifpga/p/9190696.html

时间: 2024-10-01 01:27:37

谈谈GPU与FPGA的一些看法的相关文章

上网搜关于缓存的内容,谈谈你对缓存的理解看法。并回答在网站开发中使用缓存有哪些好处?

缓存的英文是cache,一般是用于RAM存储器,用于存储临时数据,断电后存储的内容会消失.缓存是临时文件交换区,电脑把最常用的文件从存储器里提出来临时放在缓存里,就像把工具和材料搬上工作台一样,这样会比用时现去仓库取更方便.因为缓存往往使用的是RAM(断电即掉的非永久储存),所以在忙完后还是会把文件送到硬盘等存储器里永久存储.电脑里最大的缓存就是内存条了,最快的是CPU上镶的L1和L2缓存,显卡的显存是给GPU用的缓存,硬盘上也有16M或者32M的缓存.千万不能把缓存理解成一个东西,它是一种处理

深度学习硬件:CPU、GPU、FPGA、ASIC

人工智能包括三个要素:算法,计算和数据.人工智能算法目前最主流的是深度学习.计算所对应的硬件平台有:CPU.GPU.FPGA.ASIC.由于移动互联网的到来,用户每天产生大量的数据被入口应用收集:搜索.通讯.我们的QQ.微信业务,用户每天产生的图片数量都是数亿级别,如果我们把这些用户产生的数据看成矿藏的话,计算所对应的硬件平台看成挖掘机,挖掘机的挖掘效率就是各个计算硬件平台对比的标准. 最初深度学习算法的主要计算平台是 CPU,因为 CPU 通用性好,硬件框架已经很成熟,对于程序员来说非常友好.

GPU相比FPGA更具优势,适应AI快速变化需求

<strong>飞象网讯</strong>(源初/文)上周,在 GTC19 大会期间,NVIDIA 加速计算产品管理总监 Paresh Kharya 对关于 GPU 相比 FPGA 的优势的问题时回答表示,GPU 在可编程上具备明显优势,整个开发时间更短. 他表示称目前做好一个 FPGA,整个编程时间就要几个月,而且还要在硬件层面对它进行编程.然而现在 AI 变化速度非常快,甚至更新是以分钟来计算的,所以必须要在软件端实现高度灵活的可编程.恰恰 GPU 是 AI 领域的专用芯片,他

什么是ASIC芯片?与CPU、GPU、FPGA相比如何?

http://www.elecfans.com/d/672204.html 继4月初联发科宣布扩大ASIC产品阵线,推出业内首个7nm 56G PAM4 SerDes IP之后,4月24日,在联发科深圳办公室,联发科举行了一场小型的媒体会,联发科副总经理暨智能设备事业群总经理 游人杰及联发科智能显示暨客制化芯片事业部行销处处长彭建凯首次揭秘了联发科的ASIC业务. 什么是ASIC芯片? 近年随着以比特币为代表的虚拟货币市场的火爆,催生了一大批生产“挖掘”虚拟货币设备的“矿机”厂商,其中最为知名的

谈谈自己对智能手环的看法

从今年5月28日得到小米手环开始,自己也在不断关注智能穿戴设备对自己生活的改变. 首先,谈一下这41天来的使用感受.从带上小米手环开始,第一个体验的就是运动检测功能.通过为自己设置运动目标,迫使自己不断关注身体运动情况,在不断完成目标的情况下,自己也可以在一定程度上优化体制,这点对于IT人事来说还是很重要的. 其次,借助小米手环的睡眠监测功能,可以了解一宿下来的睡眠情况,更充分的了解自己休息是否到位.当然,借助小米运动APP自己也可以对体重进行持续监测,使运动量和体重数据有一个对比分析.通过这些

深度学习FPGA实现基础知识0(FPGA击败GPU和GPP,成为深度学习的未来?)

需求说明:深度学习FPGA实现知识储备 来自:http://power.21ic.com/digi/technical/201603/46230.html FPGA击败GPU和GPP,成为深度学习的未来? 最近几年,深度学习成为计算机视觉.语音识别.自然语言处理等关键领域中所最常使用的技术,被业界大为关注.然而,深度学习模型需要极为大量的数据和计算能力,只有更好的硬件加速条件,才能满足现有数据和模型规模继续扩大的需求.现有的解决方案使用图形处理单元(GPU)集群作为通用计算图形处理单元(GPGP

对HBase的一些个人看法

HBase是Google Big Table的一个开源实现,关于其基础和架构网上很多,这里就不一一说明,转一篇,这里主要谈谈我个人对Hbase的看法 1.查询:都知道HBase查询快,因为其实基于内存查询,Hbase在写入的时候,优先写入MemStore,这个MemStore就是内存了,查询的时候也就是从内存中返回,所以从这个方面Hbase可以理解为一个分布式缓存,跟平时的缓存没有差别,最简单的WEB系统在使用缓存时,也是在插入的时候先写入内存,在持久化到数据库.查询也是先从内存获取,获取失败再

了解FPGA市场现状和未来趋势

转, 来源: http://www.sohu.com/a/204640373_740053 可编程的"万能芯片" FPGA--现场可编程门阵列,是指一切通过软件手段更改.配置器件内部连接结构和逻辑单元,完成既定设计功能的数字集成电路. 一.FPGA简介 FPGA(Field Programmable Gate Array)于1985年由xilinx创始人之一Ross Freeman发明,虽然有其他公司宣称自己最先发明可编程逻辑器件PLD,但是真正意义上的第一颗FPGA芯片XC2064为

[转] CPU GPU TPU

Google I/O是由Google举行的网络开发者年会,讨论的焦点是用Google和开放网络技术开发网络应用.这个年会自2008年开始举办,到今年已经是举办的第9届了. 在今年的年会上,Google主要发布了以下8种产品:智能助手Google Assistant,与Amazon Echo竞争的无线扬声器和语音命令设备Google Home,消息应用Allo,视频呼叫应用Duo,VR平台Daydream,独立应用程序的支持Android Wear 2.0,允许不安装而使用应用的Android I