CUDA学习（一）、CUDA线程执行模型

　　CUDA在执行的时候，每一个host里面的一个个kernel按照线程网格的概念在显卡硬件上执行，每一个线程网格又可以包含多个线程块，每个线程块又可以包含多个线程。

　　当程序执行时，每一个线程就相当于一个士兵，一个军队的将军就相当于host。当我们要执行某一个军事任务时，我们就要分配各个不同的任务，每个任务有一部分人完成，假设有M个任务，这就是M个kernel。而每一个任务（kernel）就交给一个grid看管，这里grid就相当于副将或者千户（grid管理线程的多少和GPU的性能有关）当执行具体任务的时候，一个grid又会将任务细分为block(百户)。等到bolck这一层时，就可以直接管理thread了。

　　在当前模型下，每一个block中的thread联系都很好，但是不同block之间的通信就不是很好了。同样的，同一个grid之间的bolck联系很好，但是不同grid之间的通信也不好。每一个grid都会从host那里分配到资源和任务，在这个grid中的block都可以分到资源。

　　

注意，这个编号可以很快找到每个thread的位置，这样就可以根据位置查到每一个thread的编号，反之也成立。

注：在二维线程中，线程的遍历实际是按列进行的。

CUDA内存模型如下图所示：

检查显卡的参数，这里使用GPU-Z工具，本机显卡参数如下图所示：

CUDA是扩展了的C语言，因为要在GPU显卡上面运行，规定了一个特定的环境，因此也定义了一些特定的变量。

线程分配的id在线程启动时就固定了，不会再更改。

时间： 2024-12-04 09:52:12

CUDA学习（一）、CUDA线程执行模型的相关文章

CUDA学习日志：线程协作与例程

接触CUDA的时间并不长,最开始是在cuda-convnet的代码中接触CUDA代码,当时确实看的比较痛苦.最近得空,在图书馆借了本<GPU高性能编程 CUDA实战>来看看,同时也整理一些博客来加强学习效果. Jeremy Lin 在上篇博文中,我们已经用CUDA C编写了一个程序,知道了如何编写在GPU上并行执行的代码.但是对于并行编程来说,最重要的一个方面就是,并行执行的各个部分如何通过相互协作来解决问题.只有在极少数情况下,各个处理器才不需要了解其他处理器的执行状态而彼此独立地计算出结果

CUDA学习:第一CUDA代码：数组求和

今天有些收获了,成功运行了数组求和代码:就是将N个数相加求和 //环境:CUDA5.0,vs2010 #include "cuda_runtime.h"#include "device_launch_parameters.h" #include <stdio.h> cudaError_t addWithCuda(int *c, int *a); #define TOTALN 72120#define BLOCKS_PerGrid 32#define TH

TT和chrome执行模型对比分析

老大让写一篇高大上的博文,那么如何才能高大上呢?从某种角度讲只要迎合老大的口味给他一篇重口味的岛国动作片剖析就能轻松过关: 从程序员角度讲,能写出高大上的范围有很多,如程序架构,算法分析.编程语言理解.操作系统理解.知名开源程序的原创分析.优秀博文的翻译等都能吸引许多同学的兴趣.今天我再教一招让博文高大上有营养的捷径就是攀高枝,用你现有的程序框架和知名的开源架构做比较剖析.今天我选择走捷径,为同学们来分析下我最近在负责的一款im客户端产品--TeamTalk(简称TT)和chorme执行模型的区

CUDA学习ing..

0.引言本文记载了CUDA的学习过程~刚开始接触GPU相关的东西,包括图形.计算.并行处理模式等,先从概念性的东西入手,然后结合实践开始学习.CUDA感觉没有一种权威性的书籍,开发工具变动也比较快,所以总感觉心里不是很踏实.所以本文就是从初学者的角度,从无知开始探索的过程.当然在学习过程中避免不了出现概念性的理解错误,出现描述模糊不确切的地方还望指出,共勉共勉~ 1.CUDA的概念 2.CUDA的模型 CUDA的运行模型,让host中的每个kernel按照线程网格的方式(Grid)在显卡硬件(

cuda学习3-共享内存和同步

为什么要使用共享内存呢,因为共享内存的访问速度快.这是首先要明确的,下面详细研究. cuda程序中的内存使用分为主机内存(host memory) 和设备内存(device memory),我们在这里关注的是设备内存.设备内存都位于gpu之上,前面我们看到在计算开始之前,每次我们都要在device上申请内存空间,然后把host上的数据传入device内存.cudaMalloc()申请的内存,还有在核函数中用正常方法申请的变量的内存.这些内存叫做全局内存,那么还有没有别的内存种类呢?常用的还有共

CUDA学习和总结1

一. 基本概念 1. CUDA 2007年,NVIDIA推出CUDA(Compute Unified Device Architecture,统一计算设备架构)这个编程模型,目的是为了在应用程序中充分利用CPU和GPU各自的优点,实现CPU/GPU联合执行.这种联合执行的需要已经在最新的集中编程模型(OpenCL,OpenACC,C++ AMP)中体现出来了. 2. 并行编程语言和模型使用比较广泛的是为可扩展的集群计算设计的消息传递接口(Message Passing Interface,MP

CUDA学习之二：shared_memory使用，矩阵相乘

CUDA中使用shared_memory可以加速运算,在矩阵乘法中是一个体现. 矩阵C = A * B,正常运算时我们运用 C[i,j] = A[i,:] * B[:,j] 可以计算出结果.但是在CPU上完成这个运算我们需要大量的时间,设A[m,n],B[n,k],那么C矩阵为m*k,总体,我们需要做m*n*k次乘法运算,m*(b-1)*k次加法运算,并且是串行执行,总体的复杂度为O(m*n*k) . 矩阵类: 1 class Matrix 2 { 3 public: 4 int cols; /

CUDA学习，第一个kernel函数及代码讲解

前一篇CUDA学习,我们已经完成了编程环境的配置,现在我们继续深入去了解CUDA编程.本博文分为三个部分,第一部分给出一个代码示例,第二部分对代码进行讲解,第三部分根据这个例子介绍如何部署和发起一个kernel函数. 一.代码示例二.代码解说申明一个函数,用于检测CUDA运行中是否出错. kernel函数,blockIdx.x表示block在x方向的索引号,blockDim.x表示block在x方向的维度,threadIdx.x表示thread在x方向的索引号. 这里也许你会问,为什么在x方

CUDA学习笔记（一）【转】

CUDA编程中,习惯称CPU为Host,GPU为Device.编程中最开始接触的东西恐怕是并行架构,诸如Grid.Block的区别会让人一头雾水,我所看的书上所讲述的内容比较抽象,对这些概念的内容没有细讲,于是在这里作一个整理. Grid.Block和Thread的关系 Thread :并行运算的基本单位(轻量级的线程)Block :由相互合作的一组线程组成.一个block中的thread可以彼此同步,快速交换数据,最多可以同时512个线程.Grid :一组Block,有共享全局内

猜你喜欢

Gitblit的安装配置及访问-windows (2013-09-11 11:52:31) 转载▼ 分类: android基础 Git 是现在很流行的分布式版本控制工具,github更是人人皆知. ...

Linux常用基础命令

Linux基础命令 -----------------目录部分------------------- [pwd]显示当前所在的绝对目录 [cd] 切换目录 cd - 显示上一个工作目录 cd ~ ...

ASP.Net MVC数据传递

今天做了个项目,涉及到离线下载HTML,没有前后台交互,没有Ajax,JavaScript,只有第一次从控制器带参数进入,一次读取到页面所需要的全部数据,使用Razor语法绑定到前台页面,在做这个项目 ...

解析利用wsdl.exe生成webservice代理类的详解

利用wsdl.exe生成webservice代理类:根据提供的wsdl生成webservice代理类1.开始->程序->Visual Studio 2005 命令提示2.输入如下红色标记部 ...

在运行myeclipse10注册机时，显示找不到com.sun.java.swing.plaf.nimbus.NimbusLookAndFeel这个包

在win7下安装MyEclipse10.安装完成之后运行注册机,总是提示classnotfond显示找不到com.sun.java.swing.plaf.nimbus.NimbusLookAndFee ...

python下pip的安装

一.下载pip并安装 # wget --no-check-certificate https://pypi.python.org/packages/source/p/pip/pip-1.4.tar. ...

【计算机视觉】基于行为的ReID演示

帮老师做了一个简单的基于行为(主要是步态)的ReID问题的Demo,效果如下图: 下面是提取的集中特征,前三个都是GEI系的,后几个是基于光流场的.然后右边是识别出的几个对象的排序,因为没有角度和衣服 ...

vsftp简单配置

? 添加用户 ? vi /etc/pam.d/vsftdp 注释掉 auth required pam_shells.so

达尔文的进化论ＶＳ柏拉图的理念论

js 中每个对象都有一个__proto__属性,每个函数(函数也是对象)自然也有,但函数还有一个prototype属性. function A(){this.x=0;} var a=new A(); ...

在meta标签添加代码实现每次请求都要求重新加载页面而不是读取缓存

<meta http-equiv="pragram" content="no-cache"& ...

正则表达式匹配域名、网址、url

DNS规定,域名中的标号都由英文字母和数字组成,每一个标号不超过63个字符,也不区分大小写字母.标号中除连字符(-)外不能使用其他的标点符号.级别最低的域名写在最左边,而级别最高的域名写在最右边.由多 ...

Ubuntu下 git 与 vim 的安装与简单的配置

1.安装github sudo apt-get install git 配置github 1) git config --global user.name "name" git c ...

正则表达式 (C++) (施工中)

先来看一个例子,要求写一段代码,实现如下功能: 从标准输入中读取一行字符串, 从中读取所有邮箱的格式; 对于这个问题,用传统的方式是可以解决的: 我们可以用解析字符串的方式实现,需要遍历一遍获取的字符 ...

python函数参数+lambda表达式

1 #一个参数, 2 def show(arg): 3 print(arg) 4 show("kkkkk") #参数可以是列表,字典等,只要是一个元素就行 5 6 #两个参数 7 ...

读书笔记——高效能人士的七个习惯

真正的大事业,通常只会由思维开阔.内涵丰富的头脑,经由忘我的合作精神——互敬和双赢取得. 重新探索自我.由内而外重新造就自己. 没有正确的生活,就没有真正卓越的人生.——David Starr Jor ...

job中执行每行

有时,我们需要job或转换执行多次,且每次传入的参数都不同.假如你正在做数据迁移的工作,需要导入每天的旧数据,则需要一个job根据指定的日期导入数据,该日期被指定作为参数,如果我们需要导入从一个 ...

IBATIS动态SQL

直接使用JDBC一个非常普遍的问题就是动态SQL.使用参数值.参数本身和数据列都是动态SQL,通常是非常困难的.典型的解决办法就是用上一堆的IF-ELSE条件语句和一连串的字符串连接.对于这个问题,I ...

没有为请求的 URL 配置默认文档，并且没有在服务器上启用目录浏览。

1 <system.webServer> 2 <modules runAllManagedModulesForAllRequests="true" /> 3 ...

java获取request的url方法区别

1.request.getRequestURL() 返回的是完整的url,包括Http协议,端口号,servlet名字和映射路径,但它不包含请求参数.2.request.getRequestURI() ...

html5 语音识别转

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.