CUDA零内存拷贝 疑问考证

今天思考了一下CUDA零内存拷贝的问题,感觉在即将设计的程序中会派上用场,于是就查了一下相关信息。

以下是一些有帮助的链接:

cuda中的零拷贝用法--针对二维指针

cuda中的零拷贝用法--针对一维指针

cuda零拷贝用法-二维结构体指针

浅谈CUDA零拷贝内存

经过调查发现,零拷贝技术适用于集中计算、较少内存拷贝次数的问题。比如向量点积、求和运算等问题。

既然零拷贝技术是在CPU上开辟内存空间,GPU可以直接访问该空间,那么我就产生了一个疑问:“如果CPU上开辟的空间大于GPU的可用空间的时候,GPU的内存会不会发生内存溢出?”

具体一点就是:

假设GPU显存1G,我使用了999M,空闲的显存只有1M,但是在CPU上开辟的空间有10M,需要GPU去执行运算,那么这个时候GPU上的显存会溢出吗?

经过一些调查,得出的结论是 不会溢出。

在CSDN论坛上有人提问:“在影射的过程中,是不是GPU显卡的内存要足够大呢?不用考虑吗?”

有人回答道:“是可以申请大小超过GPU显存的内存的,只要Host端的内存足够大就可以~”,

还有“可以写个程序自己实现下,用上面提到过的API去申请一个超过GPU显存的内存空间,然后得到Device端的指针,进行操作,本人GPU的显存为6GB,内存32GB,实验中申请了16GB的空间,是可以申请下来的,而且执行Kernel操作的结果也是正确的”。

至此这个问题就得到了解答。由此得出的结论就是零拷贝技术是在HOST上开辟完整内存,而从GPU读取并操作的时候是GPU调节的,并不是整块读取。

P.S. 有人说存在这种问题:“zerocopy好像不支持复杂运算,make_float4()都不支持,我一用就出现错误”,在以后的运用中还有待验证,不知道在之后的CUDA版本中会不会出现一样的问题。

时间: 2024-08-08 13:41:41

CUDA零内存拷贝 疑问考证的相关文章

零内存拷贝和普通拷贝对比

下载链接 1 /* 2 * Copyright 1993-2010 NVIDIA Corporation. All rights reserved. 3 * 4 * NVIDIA Corporation and its licensors retain all intellectual property and 5 * proprietary rights in and to this software and related documentation. 6 * Any use, reprod

CUDA内存拷贝

原文链接1.cudaMemcpy()<--> cudaMalloc()  //线性内存拷贝 1 //线性内存拷贝 2 cudaMalloc((void**)&dev_A, data_size); 3 cudaMemcpy(dev_A, host_A, data_size, cudaMemcpyHostToDevice); 2.cudaMemcpy2D()<-->cudaMallocPitch() //线性内存拷贝 cudaError_t cudaMemcpy2D( void

【内存类操作】浅谈内存拷贝异常

结合本人在实际项目中所积累的经验,以及曾经犯过的错误,堆内存操作类函数做一个简单的剖析,抛砖引玉,欢迎大家吐槽. 首先,讲一下内存使用异常发生的几种场景. 1.野指针的使用,使用已经释放的指针,如果向野指针中写内容,就极有可能导致设备重启或任务挂死.因为,正在运行的任务的地址被意外的改写. [避免策略]函数入参要判空,指针使用(包括释放)之前一定要释放. 2.内存函数的错误使用: void *memset(void *s, int ch, size_t n); c语言中在<memory.h>或

cuda数组的拷贝

原文链接 简单描述一下自己要做的事情:(1)CPU三维的vector--->(2)CPU三维数组--->(3)转换到GPU中的三维数组--->(4)转换到CPU中的三维数组,而其中问题主要出在第3.4步. 主要是没有理解一个问题,那就是“cuda的各种拷贝一定要是内存连续的”.而自己在申请三维数组的时候用的是new或者malloc,这种在申请一维数组的时候是连续的,但是在申请多维数组就会出现不连续,因此在这里犯了致命错误. http://hpcbbs.it168.com/thread-7

cuda纹理内存的使用

CUDA纹理内存的访问速度比全局内存要快,因此处理图像数据时,使用纹理内存是一个提升性能的好方法. 贴一段自己写的简单的实现两幅图像加权和的代码,使用纹理内存实现. 输入:两幅图 lena, moon    输出:两幅图像加权和 1 #include <opencv2\opencv.hpp> 2 #include <iostream> 3 #include <string> 4 #include <cuda.h> 5 #include <cuda_ru

memcpy内存拷贝及优化策略图解

一般内存拷贝与优化 代码实现 #include<iostream> usingnamespace std; //不安全的内存拷贝(当源内存地址与目标内存地址重叠时会产生错误) void h_memcpy(void*src,void *dst,intsize){ if (src == NULL|| dst == NULL) { return; } const char *s =(char *)src; char *d = (char*)dst; while (size--) { *d++ = *

【C语言】 字符串操作函数及内存拷贝函数归总

今天在这里把零散的一些常用的字符串操作函数和内存拷贝函数进行一下归总实现. 一 . 字符串操作函数 字符串操作函数有很多,这里我列举一些常用的函数,以及自实现的代码: 字符串拷贝函数: 函数原型: char* my_strcpy(char* dst,const char* src) strcpy(): char* my_strcpy(char* dst,const char* src) {     assert(dst);     assert(src);     char *ret = dst

转载:内存拷贝MEMCPY()与VMSPLICE()性能对比

内存拷贝MEMCPY()与VMSPLICE()性能对比 综述 在上一篇文章<进程间大数据拷贝方法调研>中介绍和对比了三种A进程读取文件然后拷贝给B进程的方法,测试结果显示在涉及到内存与磁盘间的数据传输时,splice方法由于避免了内核缓冲区与用户缓冲区之间的多次数据拷贝,表现最好.但是由于这种对比限定在包含I/O读写,且进程不能对数据进行修改的特殊情景中,毕竟在实际情况下不太常见,理论意义大于实际意义. 那本文要探讨的情景,在实际编程过程中就十分常见了: A进程的内存中有一大块数据,要传递给B

CUDA共享内存的使用示例

CUDA共享内存使用示例如下:参考教材<GPU高性能编程CUDA实战>.P54-P65 教材下载地址:http://download.csdn.net/download/yizhaoyanbo/10150300.如果没有下载分可以评论区留下邮箱,我发你. 1 #include <cuda.h> 2 #include <cuda_runtime.h> 3 #include <device_launch_parameters.h> 4 #include <