cudaMallocPitch – 向GPU分配存储器

概要 cudaError_t cudaMallocPitch( void** devPtr,size_t* pitch,size_t widthInBytes,size_t height )

说明 向设备分配至少widthInBytes*height字节的线性存储器,并以*devPtr的形式返回指向所分配存储器的指针。该函数可以填充所分配的存储器,以确保在地址从一行更新到另一行时,给定行的对应指针依然满足对齐要求。cudaMallocPitch()以*pitch的形式返回间距,即所分配存储器的宽度,以字节为单位。间距用作存储器分配的一个独立参数,用于在2D数组内计算地址。如果给定一个T类型数组元素的行和列,可按如下方法计算地址:

T* pElement = (T*)((char*)BaseAddress + Row * pitch) + Column;

对于2D数组的分配,建议程序员考虑使用cudaMallocPitch()来执行间距分配。由于硬件中存在间距对齐限制,如果应用程序将在设备存储器的不同区域之间执行2D存储器复制(无论是线性存储器还是CUDA数组),这种方法将非常有用。

例子:为EmuDebug  原来《CUDA编程指南》上给出的pitch的类型为int,在实际运行时与cudaMallocPitch()类型不匹配。

 1 /************************************************************************/
 2 /*  This is a example of the CUDA program.
 3 /************************************************************************/
 4
 5 #include <stdio.h>
 6 #include <stdlib.h>
 7 #include <cuda_runtime.h>
 8 #include <cutil.h>
 9
10 /************************************************************************/
11 /* myKernel                                                           */
12 /************************************************************************/
13 __global__ void myKernel(float* devPtr,int height,int width,int pitch)
14 {
15     for(int r=0;r    {
16         float* row=(float*)((char*)devPtr+r*pitch);
17         for (int c=0;c        {
18             float element=row[c];
19             printf("%f/n",element);//模拟运行
20         }
21     }
22 }
23
24 /************************************************************************/
25 /* Main CUDA                                                            */
26 /************************************************************************/
27 int main(int argc, char* argv[])
28 {
29     size_t width=10;
30     size_t height=10;
31
32     float* decPtr;
33    //pitch的值应该为size_t在整形的时,与函数参数不匹配
34     size_t pitch;
35     cudaMallocPitch((void**)&decPtr,&pitch,width*sizeof(float),height);
36     myKernel<<<1,1>>>(decPtr,10,10,pitch);
37     cudaFree(decPtr);
38
39     printf("%d/n",pitch);
40
41     //CUT_EXIT(argc, argv);
42
43     return 0;
44 }
时间: 2024-08-04 00:15:27

cudaMallocPitch – 向GPU分配存储器的相关文章

栈上分配存储器的方法 alloca 抽样

声明一个局部变量,必须分配在堆栈上,但有或没有它的方法 当然,,那是 alloca 下面的代码显示了可变长度参数转换,alloca 要使用 int main(int argc, char ** argv) { char **argv2; int i,n; n=0; while(argv[n] != NULL) n++; printf("n %d\n",n); argv2 = alloca((n + 2) * sizeof(*argv)); argv2[0] = "progra

CUDA线性内存分配

原文链接 概述:线性存储器可以通过cudaMalloc().cudaMallocPitch()和cudaMalloc3D()分配 1.1D线性内存分配 1 cudaMalloc(void**,int) //在设备端分配内存 2 cudaMemcpy(void* dest,void* source,int size,enum direction) //数据拷贝 3 cudaMemcpyToSymbol //将数据复制到__constant__变量中,或者__device__变量中 4 cudaMe

《GPU高性能编程CUDA实战》中代码整理

CUDA架构专门为GPU计算设计了一种全新的模块,目的是减轻早期GPU计算中存在的一些限制,而正是这些限制使得之前的GPU在通用计算中没有得到广泛的应用. 使用CUDA C来编写代码的前提条件包括:(1).支持CUDA的图形处理器,即由NVIDIA推出的GPU显卡,要求显存超过256MB:(2).NVIDIA设备驱动程序,用于实现应用程序与支持CUDA的硬件之间的通信,确保安装最新的驱动程序,注意选择与开发环境相符的图形卡和操作系统:(3).CUDA开发工具箱即CUDA Toolkit,此工具箱

重新分配内存

realloc()函数可以重用前面通过malloc()huocalloc()(或realloc())分配的内存.函数需要两个参数:一个是指针,它包含前面调用malloc().calloc()或realloc()返回的地址,另一个是要分配的新内存的字节数. realloc()函数释放第一个指针参数引用的之前分配的内存,然后重新分配该内存区域,以满足第二个参数指定的新要求.显然,第二个参数的值不应超过以前分配的字节数.否则,新分配的内存将与以前分配的内存区域大小相同. 函数简介 原型: extern

TensorFlow——tensorflow指定CPU与GPU运算

1.指定GPU运算 如果安装的是GPU版本,在运行的过程中TensorFlow能够自动检测.如果检测到GPU,TensorFlow会尽可能的利用找到的第一个GPU来执行操作. 如果机器上有超过一个可用的GPU,除了第一个之外的其他的GPU默认是不参与计算的.为了让TensorFlow使用这些GPU,必须将OP明确指派给他们执行.with......device语句能够用来指派特定的CPU或者GPU执行操作: import tensorflow as tf import numpy as np w

从零开始入门 K8s | GPU 管理和 Device Plugin 工作机制

作者 |?车漾? 阿里巴巴高级技术专家 本文整理自<CNCF x Alibaba 云原生技术公开课>第 20?讲. 关注"阿里巴巴云原生"公众号,回复关键词"入门",即可下载从零入门 K8s 系列文章 PPT. 导读:2016 年,随着 AlphaGo 的走红和 TensorFlow 项目的异军突起,一场名为 AI 的技术革命迅速从学术圈蔓延到了工业界,所谓?AI 革命从此拉开了帷幕.该热潮的背后推手正是云计算的普及和算力的巨大提升. 需求来源 经过近几

【转】CUDA程序优化要点

CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡: 目前 GPU 的单精度性能要远远超过双精度性能,整数乘法.求模.求余等运算的指令吞吐量也较为有限.在科学计算中,由于需要处理的数据量巨大,往往采用双精度或者四精度才能获得可靠的结果,目前的 Tesla 架构还不能很好的满足高精度计算的需要.如果你的计算需要很高的精度,或者需要进行很多轮的迭代,最好考虑在关键的步骤中使用双精度,而在其他部分仍然使用单精度浮点以获得指令吞吐量和精度的

CUDA编程

目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. 运行时API 5.4.1. 初始化 5.4.2. 设备管理 5.4.3. 存储器管理 5.4.3.1. 共享存储器 5.4.3.2. 常量存储器 5.4.3.3. 线性存储器 5.4.3.4. CUDA数组 5.4.4. 流管理 5.4.5. 事件管理 5.4.6. 纹理参考管理 5.4.6.1.

【CUDA并行编程之五】计算向量的欧式距离

本文将介绍如何用cuda来计算两个向量之间的欧式距离,其中涉及到了如果将二维矩阵传入到核函数进行计算的问题,并且介绍两个内存分配和拷贝的API:cudaMallocPitch以及cudaMemcpy2D. 一.需求分析 现在我们要解决这么一个问题:计算一个D维的向量A[D]到二维矩阵B[N][D]的每一行的欧式距离,并且将每一组距离保存在一个向量dis[N]中并返回.我们还是通过串行和并行两种方式来进行实现. 二.串行实现 实现方法就是用一个二重循环进行相乘,然后将结果保存.上代码: dis_c