GPU与MIC对比

属性	NVIDIA GPU	Intel MIC
单核	流处理器/CUDA core 每个核运行一个线程	X86 core 每个核上最多支持4个硬件线程
主频	接近1GHz	1.0-1.1GHz
核数	数十个到数千个	57-61
并行度	Grid、block、thread多级并行细粒度并行(线程数>>核数) 线程之间开销为0	线程+向量化线程数<=(核数-1)*4 向量化宽度512bit（单精度：16，双精度：8）
内存大小（GB）	最大12GB	6/8/16GB
内存带宽	288 GB/s	240-352GB/s
数据访问要求	Warp内的线程访问的数据连续最佳	线程内访问的数据连续；如果向量化的话，向量化的数据访问连续最佳
峰值性能	单精度：最大4.29TFlops 双精度：最大1.43TFlops 计算方法：指令吞吐率运算单元数量频率	单精度：2.0-2.2 TFlops 双精度：1.0-1.1 TFlops Sample DP calculation: 16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s
编程语言	CUDA、OpenCL、OpenACC	OpenMP、OpenCL、Cilk、OpenACC
编程模式	Offload	Offload、Native、Symmetric
功耗	235W	225-300W
PCI-E带宽	支持2.0（双向各8GB/s）支持3.0（双向各16GB/s）	支持2.0（双向各8GB/s）目前不支持3.0
运行平台	PC、服务器、工作站个人可以在PC上配置一块GeForce卡运行CUDA，成本低、性能高	服务器比较专业，成本较高，个人很少配置
产品	GeForce：几百到几千元，用在PC上（当前主流GTX710-780） Tesla：1W-3W元，用在服务器上（当前主流K20，K40） Quadro：数千元，用在工作站上（当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M）	KNC：1W-2W元左右当前主流7110P、5110P、3110P
支持的操作系统	Windows：XP、win7、win8 Linux X86：Fedora、OpenSUSE、RHEL/CentOS、SLES、SteamOS、Ubuntu等 Linux ARM：Ubuntu Mac OSX	Windows：Windows 8 Server, Win 7, Win 8 Linux：RedHat6.0及以上，SuSE SLES11及以上
卡上自带OS	无	自带uOS，有独立IP

时间： 2024-10-04 08:49:10

GPU与MIC对比的相关文章

MIC性能优化

MIC优化方法: --并行度优化 --内存管理优化 --数据传输优化 --存储器访问优化 --向量化优化 --负载均衡优化 --MIC线程扩展性优化一:并行度优化要保证有足够的并行度,效果才能好(数据并行,任务并行) 优化步骤: 1.写OpenMP程序 2.测试他的扩展性,比如用两个测试,然后4个,6个,8个线程测试 3.然后移植到MIC上面 MIC优化准则:外层并行,内层向量化示例一: for(i=0;i<M;i++) { for(j=0;j<N;j++){ ...... } } 两种

MIC简介

一:MIC是什么? (一)MIC是架构名称-Intel Many Integrated Core(Intel集成众核) (二)众核协处理器(Co-Processor) --通过PCIE与CPU通信 --众核.重核 (三)基于x86架构和x86指令集二:MIC特性 MIC卡: 最高61 cores 主频1.2GHz 244 Threads 但是最多能开240个线程,有4个线程跑OS 最高内存容量16GB,内存带宽352GB/s 单卡双精度峰值性能>1.2TFLOPS MIC Core的组成 X8

OpenStack 企业私有云的几个需求（1）：Nova 虚机支持 GPU

本系列会介绍OpenStack 企业私有云的几个需求: GPU 支持自动扩展(Auto-scaling)支持混合云(Hybrid cloud)支持物理机(Bare metal)支持 CDN 支持企业负载均衡器(F5)支持大规模扩展性(100个计算节点)支持商业SDN控制器支持内容比较多,很多东西也没有确定的内容.想到哪就写到哪吧.先从 GPU 支持开始. 1. 基础知识 1.1 VGA(图像显示卡),Graphics Card(图形加速卡),Video Card(视频加速卡),3D

【MatConvNet】配置GPU

参照大神的方法:http://www.th7.cn/system/win/201603/155182.shtml 第一步:需要安装cuda.VS2013:cuda默认路径,注意cuda版本和GPU要匹配第二步:.下载cudnn,在matconvnet文件夹下建一个local文件夹,然后把cudnn放进去 (我改了文件名称为cudnn) 如图: 第三步:打开vl_compilenn.m,运行,等待编译结束如图: 第四步把bin下的cudnn64_4.dll再复制到mex的文件夹下. 第五步:复

GPU：并行计算利器

http://blog.jobbole.com/87849/ 首页最新文章 IT 职场前端后端移动端数据库运维其他技术 - 导航条 - 首页最新文章 IT 职场前端 - JavaScript - HTML5 - CSS 后端 - Python - Java - C/C++ - PHP - .NET - Ruby - Go 移动端 - Android - iOS 数据库运维 - Linux - UNIX 其他技术 - Git - 机器学习 - 算法 - 测试 - 信息安全 -

玩深度学习选哪块英伟达 GPU？有性价比排名还不够！

本文來源地址:https://www.leiphone.com/news/201705/uo3MgYrFxgdyTRGR.html 与"传统" AI 算法相比,深度学习(DL)的计算性能要求,可以说完全在另一个量级上. 而 GPU 的选择,会在根本上决定你的深度学习体验.那么,对于一名 DL 开发者,应该怎么选择合适的 GPU 呢?这篇文章将深入讨论这个问题,聊聊有无必要入手英特尔协处理器 Xeon Phi,并将各主流显卡的性能.性价比制成一目了然的对比图,供大家参考. 先来谈谈选择

GPU---并行计算利器

1 GPU是什么如图1所示,这台PC机与普通PC机不同的是这里插了7张显卡,左下角是显卡,在中间的就是GPU芯片.显卡的处理器称为图形处理器(GPU),它是显卡的“心脏”,与CPU类似,只不过GPU是专为执行复杂的数学和几何计算而设计的. GPU计算能力非常强悍,举个例子:现在主流的i7处理器的浮点计算能力是主流的英伟达GPU处理器浮点计算能力的1/12. 图1 显卡与GPU 2 为什么GPU计算能力如此强悍? 图2对CPU与GPU中的逻辑架构进行了对比.其中Control是控制器.ALU算术

XenGT为什么会比GRID vGPU先实现基于vGPU的在线迁移呢？

在最近的XenSummit 2016上,英特尔在一个Session上演示了基于Xen的GPU虚拟化在线迁移.为什么后起之秀会吊打老司机? 一.XenGT如何实现在线迁移? 我们先来看XenGT的架构 1.英特尔的显卡集成到CPU上,使用的显存是内存,和CPU共同访问内存空间: 2.在hypervisor实现对GPU的陷阱(trap)和透传(pass-through)机制,说明意思呢?就是说和CPU虚拟化类似的思路,特权的指令交由hypervisor,这些指令有虚拟机传递下来后被拦截,交由hype

Android硬件加速介绍与实现

概述在手机客户端尤其是Android应用的开发过程中,我们经常会接触到"硬件加速"这个词.由于操作系统对底层软硬件封装非常完善,上层软件开发者往往对硬件加速的底层原理了解很少,也不清楚了解底层原理的意义,因此常会有一些误解,如硬件加速是不是通过特殊算法实现页面渲染加速,或是通过硬件提高CPU/GPU运算速率实现渲染加速. 本文尝试从底层硬件原理,一直到上层代码实现,对硬件加速技术进行简单介绍,其中上层实现基于Android 6.0. 硬件加速对App开发的意义对于App开发者,简单