CUDA学习和总结1

一. 基本概念

1. CUDA

2007年,NVIDIA推出CUDA(Compute Unified Device Architecture,统一计算设备架构)这个编程模型,目的是为了在应用程序中充分利用CPU和GPU各自的优点,实现CPU/GPU联合执行。这种联合执行的需要已经在最新的集中编程模型(OpenCL,OpenACC,C++ AMP)中体现出来了。

2. 并行编程语言和模型

使用比较广泛的是为可扩展的集群计算设计的消息传递接口(Message Passing Interface,MPI)和为共享存储器的多处理器系统设计的OpenMP。目前,很多HPC(High-Performance Computing)集群采用的都是异构的CPU/GPU节点模型,也就是MPI和CUDA的混合编程,来实现多机多卡模型。目前,支持CUDA的编程语言有C,C++,Fortran,Python,Java [2]。CUDA采用的是SPMD(Single-Program Multiple-Data,单程序多数据)的并行编程风格。

3. 数据并行性,任务并行性

解析:

任务并行性通常对应用进行任务分解得到。例如,对一个需要做向量加法和矩阵-向量乘法的简单应用来说,每个操作可以看作一个任务。如果这两个任务可以独立地执行,那么就能得到任务并行性。

4. CUDA对C中函数声明的扩展

解析:

(1)__device__ float DeviceFunc():在设备上执行,并且只能从设备上调用。

(2)__global__ float KernelFunc():在设备上执行,并且只能从主机上调用。

(3)__host__ float HostFunc():在主机上执行,并且只能从主机上调用。

说明:

如果在函数声明时没有指定CUDA扩展关键字,则默认的函数是主机函数。

5. thread,block,grid,warp,sp,sm

解析:

(1)grid、block、thread:在利用CUDA进行编程时,一个grid分为多个block,而一个block分为多个thread。

(2)sp:最基本的处理单元,最后具体的指令和任务都是在sp上处理的。
(3)sm:多个sp加上其它的一些资源(比如,存储资源、共享内存、寄储器等)组成一个sm。
(4)warp:GPU执行程序时的调度单位。目前CUDA的warp的大小为32,同在一个warp的线程,以不同数据资源执行相同的指令。

6. CUDA核函数

kernel函数完整的执行配置参数形式是<<<Dg, Db, Ns, S>>>,如下所示:

(1)参数Dg用于定义整个grid的维度和尺寸,即一个grid有多少个block。

(2)参数Db用于定义一个block的维度和尺寸,即一个block有多少个thread。

(3)参数Ns是一个可选参数,用于设置每个block除了静态分配的shared Memory以外,最多能动态分配的shared memory大小,单位为byte。不需要动态分配时该值为0或省略不写。

(4)参数S是一个cudaStream_t类型的可选参数,初始值为零,表示该核函数处在哪个流之中。

7. CUDA存储系统

(1)寄存器

(2)局部存储器

(3)共享存储器

(4)全局存储器

(5)常数存储器

8. CUDA SDK

9. CUDA软件栈

说明:

CUDA软件栈包含多个层,设备驱动程序、应用程序编程接口(API)及其运行时、两个较高级别的通用数学库,即CUFFT和CUBLAS。相对来说,CUDA Driver是底层API,而CUDA Runtime是高层API。

参考文献:

[1] Java bindings for CUDA:http://jcuda.org/

时间: 2024-12-16 20:20:37

CUDA学习和总结1的相关文章

CUDA学习之二:shared_memory使用,矩阵相乘

CUDA中使用shared_memory可以加速运算,在矩阵乘法中是一个体现. 矩阵C = A * B,正常运算时我们运用 C[i,j] = A[i,:] * B[:,j] 可以计算出结果.但是在CPU上完成这个运算我们需要大量的时间,设A[m,n],B[n,k],那么C矩阵为m*k,总体,我们需要做m*n*k次乘法运算,m*(b-1)*k次加法运算,并且是串行执行,总体的复杂度为O(m*n*k) . 矩阵类: 1 class Matrix 2 { 3 public: 4 int cols; /

CUDA学习之一:二维矩阵加法

今天忙活了3个小时,竟然被一个苦恼的CUDA小例程给困住了,本来是参照Rachal zhang大神的CUDA学习笔记来一个模仿,结果却自己给自己糊里糊涂,最后还是弄明白了一些. RZ大神对CUDA关于kernel,memory的介绍还是蛮清楚,看完决定写一个二维数组的加法.如果是C++里的加法,那就简单了,用C[i][j] = A[i][j] +B[i][j]就可以. 1 void CppMatAdd(int A[M][N],int B[M][N],int C[M][N]){ 2 for(int

CUDA学习5 常量内存与事件

当线程束中的所有线程都访问相同的只读数据时,使用常量内存将获得额外的性能提升. 常量内存大小限制为64k. 以下摘自hackairM的博文CUDA学习--内存处理之常量内存(4). 常量内存其实只是全局内存的一种虚拟地址形式,并没有特殊保留的常量内存块.常量内存有两个特性,一个是高速缓存,另一个是它支持将单个值广播到线程束中的每个线程.但要注意的是,对于那些数据不太集中或者数据重用率不高的内存访问,尽量不要使用常量内存. 当常量内存将数据分配或广播到线程束中的每个线程时(注意,实际上硬件会将单次

CUDA学习,第一个kernel函数及代码讲解

前一篇CUDA学习,我们已经完成了编程环境的配置,现在我们继续深入去了解CUDA编程.本博文分为三个部分,第一部分给出一个代码示例,第二部分对代码进行讲解,第三部分根据这个例子介绍如何部署和发起一个kernel函数. 一.代码示例 二.代码解说 申明一个函数,用于检测CUDA运行中是否出错. kernel函数,blockIdx.x表示block在x方向的索引号,blockDim.x表示block在x方向的维度,threadIdx.x表示thread在x方向的索引号. 这里也许你会问,为什么在x方

cuda学习3-共享内存和同步

为什么要使用共享内存呢,因为共享内存的访问速度快.这是首先要明确的,下面详细研究. cuda程序中的内存使用分为主机内存(host memory) 和 设备内存(device memory),我们在这里关注的是设备内存.设备内存都位于gpu之上,前面我们看到在计算开始之前,每次我们都要在device上申请内存空间,然后把host上的数据传入device内存.cudaMalloc()申请的内存,还有在核函数中用正常方法申请的变量的内存.这些内存叫做全局内存,那么还有没有别的内存种类呢?常用的还有共

CUDA学习ing..

0.引言 本文记载了CUDA的学习过程~刚开始接触GPU相关的东西,包括图形.计算.并行处理模式等,先从概念性的东西入手,然后结合实践开始学习.CUDA感觉没有一种权威性的书籍,开发工具变动也比较快,所以总感觉心里不是很踏实.所以本文就是从初学者的角度,从无知开始探索的过程.当然在学习过程中避免不了出现概念性的理解错误,出现描述模糊不确切的地方还望指出,共勉共勉~ 1.CUDA的概念 2.CUDA的模型 CUDA的运行模型,让host中的每个kernel按照线程网格的方式(Grid)在显卡硬件(

CUDA学习之从CPU架构说起

最近要学习GPU编程,就去英伟达官网下载CUDA, 遇到的第一个问题就是架构的选择 所以我学习的CUDA的第一步是从学习认识CPU架构开始的,x86-64简称x64,是64位版的x86指令集,向前兼容与16位版和32位版的x86架构.x64最初是由AMD于1999年设计完成,AMD首次公开64位集以扩充给x86,称为“AMD64”.后来也被Intel所采用,又被intel 叫做“Intel 64”. 那么ppc64le又指什么呢,下面引用wiki上的两段话“ ppc64 是Linux和GCC开源

CUDA学习

因为老师要求,现在开始学习CUDA的相关知识.开始在网上找了很多教程,都在一点一点看,后来同学推荐了一本书,是<GPU高性能编CUDA实战>,觉得挺不错的,书上的实例代码我都有码,对CUDA的理解也越来越深了,打算把这些记下来,以后可以复习,也给后来学习的人一点参考,少走弯路. 来老师实验室三周了,每天就是呆在实验室里学习CUDA,我开始以为是用CUDA做图形图像呢,后来才知道老师让我学CUDA是做信号处理的,这个就比较蛋疼了,苦日子在后头呢.本来九月开学呢,我暑假就过来了,想着人丑还不好好学

CUDA学习笔记(二)【转】

来源:http://luofl1992.is-programmer.com/posts/38847.html 编程语言的特点是要实践,实践多了才有经验.很多东西书本上讲得不慎清楚,不妨自己用代码实现一下. 作为例子,我参考了书本上的矩阵相乘的例子,这样开始写代码,然后很自然地出现了各种问题. 以下的内容供大家学习参考,有问题可以留言与我反馈. 开始学着使用 CUDA,实现一个矩阵乘法运算. 首先我们要定义一个矩阵的结构体,话说CUDA是否支持结构体作为设备端的函数的参数呢? 不妨都一股脑试验一下

CUDA学习日志:常量内存和纹理内存

接触CUDA的时间并不长,最开始是在cuda-convnet的代码中接触CUDA代码,当时确实看的比较痛苦.最近得空,在图书馆借了本<GPU高性能编程 CUDA实战>来看看,同时也整理一些博客来加强学习效果. Jeremy Lin 在上一篇博文中,我们谈到了如何利用共享内存来实现线程协作的问题.本篇博文我们主要来谈谈如何利用常量内存和纹理内存来提高程序性能. 常量内存 所谓的常量内存,从它的名字我们就可以知道,它是用来保存在核函数执行期间不会发生变化的数据.NVIDIA硬件提供了64KB的常量