CUDA基本概念
CUDA网格限制
1.2CPU和GPU的设计区别
2.1CUDA-Thread
2.2CUDA-Memory(存储)和bank-conflict
2.3CUDA矩阵乘法
3.1 全局存储带宽与合并访问 -- Global Memory(DRAM) bandwidth and memory coalesce
3.2 卷积
3.3分析卷积乘法优化的复用
4.1Reduction模型
4.2 CUDA Reduction 一步一步优化
4.3 Reduction代码(Heterogeneous Parallel Programming class lab)
4.4 CUDA prefix sum一步一步优化
5.1 CUDA atomic原子操作
5.2 CUDA Histogram直方图
6.1 CUDA: pinned memory固定存储
6.2 CUDA streams
7.OpenACC
CUDA学习资料分享(随时更新)
时间: 2024-11-04 02:32:25