属性 |
NVIDIA GPU |
Intel MIC |
单核 |
流处理器/CUDA core 每个核运行一个线程 |
X86 core 每个核上最多支持4个硬件线程 |
主频 |
接近1GHz |
1.0-1.1GHz |
核数 |
数十个到数千个 |
57-61 |
并行度 |
Grid、block、thread多级并行 细粒度并行(线程数>>核数) 线程之间开销为0 |
线程+向量化 线程数<=(核数-1)*4 向量化宽度512bit(单精度:16,双精度:8) |
内存大小(GB) |
最大12GB |
6/8/16GB |
内存带宽 |
288 GB/s |
240-352GB/s |
数据访问要求 |
Warp内的线程访问的数据连续最佳 |
线程内访问的数据连续;如果向量化的话,向量化的数据访问连续最佳 |
峰值性能 |
单精度:最大4.29TFlops 双精度:最大1.43TFlops 计算方法:指令吞吐率*运算单元数量*频率 |
单精度:2.0-2.2 TFlops 双精度:1.0-1.1 TFlops Sample DP calculation: 16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s |
编程语言 |
CUDA、OpenCL、OpenACC |
OpenMP、OpenCL、Cilk、OpenACC |
编程模式 |
Offload |
Offload、Native、Symmetric |
功耗 |
235W |
225-300W |
PCI-E带宽 |
支持2.0(双向各8GB/s) 支持3.0(双向各16GB/s) |
支持2.0(双向各8GB/s) 目前不支持3.0 |
运行平台 |
PC、服务器、工作站 个人可以在PC上配置一块GeForce卡运行CUDA,成本低、性能高 |
服务器 比较专业,成本较高,个人很少配置 |
产品 |
GeForce:几百到几千元,用在PC上(当前主流GTX710-780) Tesla:1W-3W元,用在服务器上(当前主流K20,K40) Quadro:数千元,用在工作站上(当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M) |
KNC:1W-2W元左右 当前主流7110P、5110P、3110P |
支持的操作系统 |
Windows:XP、win7、win8 Linux X86:Fedora、OpenSUSE、RHEL/CentOS、SLES、SteamOS、Ubuntu等 Linux ARM:Ubuntu Mac OSX |
Windows:Windows 8 Server, Win 7, Win 8 Linux:RedHat6.0及以上,SuSE SLES11及以上 |
卡上自带OS |
无 |
自带uOS,有独立IP |
时间: 2024-10-04 08:49:10