GPU与MIC对比


属性


NVIDIA GPU


Intel MIC


单核


流处理器/CUDA core

每个核运行一个线程


X86 core

每个核上最多支持4个硬件线程


主频


接近1GHz


1.0-1.1GHz


核数


数十个到数千个


57-61


并行度


Grid、block、thread多级并行

细粒度并行(线程数>>核数)

线程之间开销为0


线程+向量化

线程数<=(核数-1)*4

向量化宽度512bit(单精度:16,双精度:8)


内存大小(GB)


最大12GB


6/8/16GB


内存带宽


288 GB/s


240-352GB/s


数据访问要求


Warp内的线程访问的数据连续最佳


线程内访问的数据连续;如果向量化的话,向量化的数据访问连续最佳


峰值性能


单精度:最大4.29TFlops

双精度:最大1.43TFlops

计算方法:指令吞吐率*运算单元数量*频率


单精度:2.0-2.2 TFlops

双精度:1.0-1.1 TFlops

Sample DP calculation:  16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s


编程语言


CUDA、OpenCL、OpenACC


OpenMP、OpenCL、Cilk、OpenACC


编程模式


Offload


Offload、Native、Symmetric


功耗


235W


225-300W


PCI-E带宽


支持2.0(双向各8GB/s)

支持3.0(双向各16GB/s)


支持2.0(双向各8GB/s)

目前不支持3.0


运行平台


PC、服务器、工作站

个人可以在PC上配置一块GeForce卡运行CUDA,成本低、性能高


服务器

比较专业,成本较高,个人很少配置


产品


GeForce:几百到几千元,用在PC上(当前主流GTX710-780)

Tesla:1W-3W元,用在服务器上(当前主流K20,K40)

Quadro:数千元,用在工作站上(当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M)


KNC:1W-2W元左右

当前主流7110P、5110P、3110P


支持的操作系统


Windows:XP、win7、win8

Linux X86:Fedora、OpenSUSE、RHEL/CentOS、SLES、SteamOS、Ubuntu等

Linux ARM:Ubuntu

Mac OSX


Windows:Windows 8 Server, Win 7, Win 8

Linux:RedHat6.0及以上,SuSE SLES11及以上


卡上自带OS



自带uOS,有独立IP

时间: 2024-10-04 08:49:10

GPU与MIC对比的相关文章

MIC性能优化

MIC优化方法: --并行度优化 --内存管理优化 --数据传输优化 --存储器访问优化 --向量化优化 --负载均衡优化 --MIC线程扩展性优化 一:并行度优化 要保证有足够的并行度,效果才能好(数据并行,任务并行) 优化步骤: 1.写OpenMP程序 2.测试他的扩展性,比如用两个测试,然后4个,6个,8个线程测试 3.然后移植到MIC上面 MIC优化准则:外层并行,内层向量化 示例一: for(i=0;i<M;i++) { for(j=0;j<N;j++){ ...... } } 两种

MIC简介

一:MIC是什么? (一)MIC是架构名称-Intel Many Integrated Core(Intel集成众核) (二)众核协处理器(Co-Processor) --通过PCIE与CPU通信 --众核.重核 (三)基于x86架构和x86指令集 二:MIC特性 MIC卡: 最高61 cores 主频1.2GHz 244 Threads 但是最多能开240个线程,有4个线程跑OS 最高内存容量16GB,内存带宽352GB/s 单卡双精度峰值性能>1.2TFLOPS MIC Core的组成 X8

OpenStack 企业私有云的几个需求(1):Nova 虚机支持 GPU

本系列会介绍OpenStack 企业私有云的几个需求: GPU 支持 自动扩展(Auto-scaling)支持 混合云(Hybrid cloud)支持 物理机(Bare metal)支持 CDN 支持 企业负载均衡器(F5)支持 大规模扩展性(100个计算节点)支持 商业SDN控制器支持 内容比较多,很多东西也没有确定的内容.想到哪就写到哪吧.先从 GPU 支持开始. 1. 基础知识 1.1 VGA(图像显示卡),Graphics Card(图形加速卡),Video Card(视频加速卡),3D

【MatConvNet】配置GPU

参照大神的方法:http://www.th7.cn/system/win/201603/155182.shtml 第一步:需要安装cuda.VS2013:cuda默认路径,注意cuda版本和GPU要匹配 第二步:.下载cudnn,在matconvnet文件夹下建一个local文件夹,然后把cudnn放进去 (我改了文件名称为cudnn) 如图: 第三步:打开vl_compilenn.m,运行,等待编译结束 如图: 第四步把bin下的cudnn64_4.dll再复制到mex的文件夹下. 第五步:复

GPU:并行计算利器

http://blog.jobbole.com/87849/ 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他技术 - 导航条 - 首页 最新文章 IT 职场 前端 - JavaScript - HTML5 - CSS 后端 - Python - Java - C/C++ - PHP - .NET - Ruby - Go 移动端 - Android - iOS 数据库 运维 - Linux - UNIX 其他技术 - Git - 机器学习 - 算法 - 测试 - 信息安全 -

玩深度学习选哪块英伟达 GPU?有性价比排名还不够!

本文來源地址:https://www.leiphone.com/news/201705/uo3MgYrFxgdyTRGR.html 与"传统" AI 算法相比,深度学习(DL)的计算性能要求,可以说完全在另一个量级上. 而 GPU 的选择,会在根本上决定你的深度学习体验.那么,对于一名 DL 开发者,应该怎么选择合适的 GPU 呢?这篇文章将深入讨论这个问题,聊聊有无必要入手英特尔协处理器 Xeon Phi,并将各主流显卡的性能.性价比制成一目了然的对比图,供大家参考. 先来谈谈选择

GPU---并行计算利器

1 GPU是什么 如图1所示,这台PC机与普通PC机不同的是这里插了7张显卡,左下角是显卡,在中间的就是GPU芯片.显卡的处理器称为图形处理器(GPU),它是显卡的“心脏”,与CPU类似,只不过GPU是专为执行复杂的数学和几何计算而设计的. GPU计算能力非常强悍,举个例子:现在主流的i7处理器的浮点计算能力是主流的英伟达GPU处理器浮点计算能力的1/12. 图1 显卡与GPU 2 为什么GPU计算能力如此强悍? 图2对CPU与GPU中的逻辑架构进行了对比.其中Control是控制器.ALU算术

XenGT为什么会比GRID vGPU先实现基于vGPU的在线迁移呢?

在最近的XenSummit 2016上,英特尔在一个Session上演示了基于Xen的GPU虚拟化在线迁移.为什么后起之秀会吊打老司机? 一.XenGT如何实现在线迁移? 我们先来看XenGT的架构 1.英特尔的显卡集成到CPU上,使用的显存是内存,和CPU共同访问内存空间: 2.在hypervisor实现对GPU的陷阱(trap)和透传(pass-through)机制,说明意思呢?就是说和CPU虚拟化类似的思路,特权的指令交由hypervisor,这些指令有虚拟机传递下来后被拦截,交由hype

Android硬件加速介绍与实现

概述 在手机客户端尤其是Android应用的开发过程中,我们经常会接触到"硬件加速"这个词.由于操作系统对底层软硬件封装非常完善,上层软件开发者往往对硬件加速的底层原理了解很少,也不清楚了解底层原理的意义,因此常会有一些误解,如硬件加速是不是通过特殊算法实现页面渲染加速,或是通过硬件提高CPU/GPU运算速率实现渲染加速. 本文尝试从底层硬件原理,一直到上层代码实现,对硬件加速技术进行简单介绍,其中上层实现基于Android 6.0. 硬件加速对App开发的意义 对于App开发者,简单