一起学CUDA(零)

1.Nvidia为什么引入CUDA
最近实验室已经有不少豪在入手本本了，因为学霸居多，所以大家一般都会说对显卡要求不高，不玩大型游戏，只是CPU不能差，Intel I7、3G的主频……

其实现在CPU的时钟频率4GHz已经基本极限了，在这个极限点上，CPU会产生大量的热量，产生热量的原因是随着时钟频率的提升，电力功耗增大。事实上，在电压不变的情况下，一个CPU的电力功耗大约是它时钟频率的3次方，更糟糕的是，如果CPU产生的热量增加，那么即使时钟频率不变，根据硅材质的特点，CPU的功耗也会进一步增加，这个不断增加的无效的电能消耗，意味着你要么不能充分为处理器提供电力，要么不能够有效的冷却处理器，已经达到了电子设备或芯片封装的散热极限，即“功耗强”(Power Wall)效应。

另一方面是市场上对更快处理器的需求，于是两个主要的PC机CPU制造商，Intel和AMD采取了多核方案，从持续的提高时钟频率转移到向处理器添加更多核的发展道路。

然而，不管什么行业，道路的转变都是很困难的，就好比马路走惯了，突然要走水路，总会有一拨人淹死，要么就得学会游泳。多核带来的问题是，串行、单线程的问题求解方法向多线程并行执行的问题求解方法的改变。涉及到线程的分配、内存的共享等等问题，也许你的程序在双核的电脑上跑得很欢，换个四核的机器就挂掉了，所以这个转变一直很缓慢。其实不少人用着四核的机器运行着单线程的应用程序，顶多在一个核工作时，一些设备会动态的提升时钟频率来提高性能，所以不少的四核机器也就是空有其表，不少的硬件资源都是浪费的。

图1：CPU和GPU的峰值性能（单位：十亿次浮点操作每秒gigaflops）

多核CPU的发展路漫漫其修远兮，另一方面，如果留意GPU和CPU的计算能力，如图1所示，GPU已经开始甩开CPU几条街了，就目前CPU很难达到 4GHz的时钟频率，核数很难超过16核，计算能力约为64gigaflops（10亿次浮点操作每秒），而如图2所示的GPU计算能力都已经远超CPU 了，如果能好好动动GPU的脑子，也许会是另一条康庄大道。

图2：当前Nvidia GPU卡性能参数

2007年，Nvidia发现了一个能使GPU进入主流的契机，即推出了CUDA（Compute Unified Device Architecture计算统一设备架构），这就为GPU增加了一个易用的编程接口，CUDA是C语言的一种扩展，它允许使用标准C来进行GPU编程，由于CUDA的规范性以及通用易用性，近年来发展相当迅速，成为首个有可能发展成为GPU开发的候选编程语言。
2. 深入了解GPU
GPU计算能力为什么这么强，这自然跟它的内部原理是密切相关的。GPU的硬件结构与CPU的硬件结构有着根本的不同，图4显示了一个位于PCI-E总线另一侧的GPU系统。

图3：core2 系列CPU的结构图

图4：GPU卡的组成模块图
GPU的硬件部分由以下几个关键模块组成：
1）内存（全局的、常量的、共享的）
2）流处理器簇SM
3）流处理器SP
关于GPU的并发性，并发性的内涵是，对于一个特定的问题，无须考虑用哪种并行计算来求解，而只需关注求解方法中的哪些操作是可以并行执行的。由于“易并行”不需要或者只需要少许线程间或线程块间通信，所以CUDA是很理想的并行求解平台，它用基于片上资源的、显示的通信原语来支持线程间的通信。CUDA 将问题分解成线程块的网格，每块包含多个线程，块可以按任意顺序执行，不过在某个时间点上，只有一部分块处于执行中，一旦被调度到GPU包含的N个“流处理器簇”中的一个上执行，一个块必须从开始执行到结束，图5表示基于GPU的线程示意图。

图5：基于GPU的线程试图

时间： 2024-10-12 12:31:56

一起学CUDA(零)

一起学CUDA(零)的相关文章

CUDA零内存拷贝疑问考证

3.5星|《行为设计学：零成本改变》：明确的、可操作的、短期的、可以引起情感共鸣的目标，更有助于个人或组织做出改变

菜鸟学Struts2——零配置(Convention )

一起学CUDA(一)

Cuda beginning

零基础如何自学软件编程

CUDA学习

一 GPU 编程技术的发展历程及现状

第一篇：GPU 编程技术的发展历程及现状