GPU 加速NLP任务（Theano+CUDA）

　　之前学习了CNN的相关知识，提到Yoon Kim(2014)的论文，利用CNN进行文本分类，虽然该CNN网络结构简单效果可观，但论文没有给出具体训练时间，这便值得进一步探讨。

　　Yoon Kim代码：https://github.com/yoonkim/CNN_sentence

　　利用作者提供的源码进行学习，在本人机子上训练时，做一次CV的平均训练时间如下，纵坐标为min/CV（供参考）：

　　机子配置：Intel(R) Core(TM) i3-4150 CPU @ 3.50GHz， 32G，x64

　　显然，训练非常慢慢慢！！！在CPU上训练，做10次CV，得10多个小时啊，朋友发邮件和Yoon Kim求证过，他说确实很慢慢慢，难怪论文中没有出现训练时间数据~.~

　　考虑改进的话，要么就是多线程作并行，卷积层可做并行，但代码不容易写啊:(，所以我考虑GPU加速。

　　流程：1、安装NVIDIA驱动；2、安装配置CUDA；3、修改程序用GPU跑；

1、安装NVIDA驱动

　　（0）看看你有没有符合的显卡：lspci | grep -i nvidia，参考教程

　　（1）下载对应显卡的nVidia驱动：http://www.nvidia.com/Download/index.aspx?lang=en-us

　　本人机子GPU：GeForce GTX 660 Ti，对应下载的驱动为NVIDIA-Linux-x86_64-352.63.run

　　（2）添加可执行权限： sudo chmod +x NVIDIA-Linux-x86_64-352.63.run

　　（3）关闭X-window：sudo service lightdm stop，然后切换到tty1：Ctrl+Alt+F1

　　（4）安装驱动：sudo ./NVIDIA-Linux-x86_64-352.63.run。按照其中提示进行安装，可能要设置compat32-libdir

　　（5）重启X-window：sudo service lightdm start.

　　（6）验证驱动安装是否成功：cat /proc/driver/nvidia/version

2、安装配置CUDA

　　（1）安装教程：http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-linux/index.html#ubuntu-installation

　　（2）下载cuda-toolkit:https://developer.nvidia.com/cuda-downloads。选择和你配置符合的cuda下载：cuda-repo-ubuntu1404-7-5-local_7.5-18_amd64.deb

　　（3）注意不同系统的安装命令不同，下面是ubuntu14.04安装命令。有什么问题看上面的教程可以搞定。

sudo dpkg -i cuda-repo-ubuntu1404-7-5-local_7.5-18_amd64.deb
sudo apt-get update
sudo apt-get install cuda

　　（4）验证toolkit是否成功：nvcc -V

　　（5）配置路径：vim .bashrc

PATH=$PATH:/usr/local/cuda-7.0/bin
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda7.0/lib64
export PATH
export LD_LIBRARY_PATH

3、修改程序用GPU跑

　　根据theano官方文档：http://deeplearning.net/software/theano/tutorial/using_gpu.html

　　可以先用下列代码测试CUDA配置是否正确，能否正常使用GPU。

from theano import function, config, shared, sandbox
import theano.tensor as T
import numpy
import time

vlen = 10 * 30 * 768  # 10 x #cores x # threads per core
iters = 1000

rng = numpy.random.RandomState(22)
x = shared(numpy.asarray(rng.rand(vlen), config.floatX))
f = function([], T.exp(x))
print(f.maker.fgraph.toposort())
t0 = time.time()
for i in xrange(iters):
    r = f()
t1 = time.time()
print("Looping %d times took %f seconds" % (iters, t1 - t0))
print("Result is %s" % (r,))
if numpy.any([isinstance(x.op, T.Elemwise) for x in f.maker.fgraph.toposort()]):
    print(‘Used the cpu‘)
else:
    print(‘Used the gpu‘)

　　将上述代码保存为check_GPU.py，使用以下命令进行测试，根据测试结果可知gpu能否正常使用，若出错有可能是上面路径配置问题。

$ THEANO_FLAGS=mode=FAST_RUN,device=cpu,floatX=float32 python check1.py
[Elemwise{exp,no_inplace}(<TensorType(float32, vector)>)]
Looping 1000 times took 3.06635117531 seconds
Result is [ 1.23178029  1.61879337  1.52278066 ...,  2.20771813  2.29967761
  1.62323284]
Used the cpu

$ THEANO_FLAGS=mode=FAST_RUN,device=gpu,floatX=float32 python check1.py
Using gpu device 0: GeForce GTX 580
[GpuElemwise{exp,no_inplace}(<CudaNdarrayType(float32, vector)>), HostFromGpu(GpuElemwise{exp,no_inplace}.0)]
Looping 1000 times took 0.638810873032 seconds
Result is [ 1.23178029  1.61879349  1.52278066 ...,  2.20771813  2.29967761
  1.62323296]
Used the gpu

　　由于目前Nvidia GPU主要是针对float32位浮点数计算进行优化加速，所以需要将代码中的数据及变量类型置成float32。

　　具体对代码做如下更改：

　　（1）process_data.py

line 55, W = np.zeros(shape=(vocab_size+1, k), dtype=‘float32‘)
line 56, W[0] = np.zeros(k, dtype=‘float32‘)

　　修改后运行命令，获得每个word对应的词向量（float32）。

python process_data.py GoogleNews-vectors-negative300.bin

　　（2）conv_net_sentence.py

　　添加allow_input_downcast=True，程序中间运算过程若产生float64，会cast到float32。

lin 82, set_zero = theano.function([zero_vec_tensor], updates=[(Words, T.set_subtensor(Words[0,:], zero_vec_tensor))], allow_input_downcast=True)
lin131, val_model = theano.function([index], classifier.errors(y),
　　　　　　givens={
　　　　　　　　　　x: val_set_x[index * batch_size: (index + 1) * batch_size],
　　　　　　　　　　y: val_set_y[index * batch_size: (index + 1) * batch_size]}, allow_input_downcast=True)
lin 137, test_model = theano.function([index], classifier.errors(y),
　　　　　　givens={
　　　　　　　　　　x: train_set_x[index * batch_size: (index + 1) * batch_size],
　　　　　　　　　　y: train_set_y[index * batch_size: (index + 1) * batch_size]}, allow_input_downcast=True)

lin 141, train_model = theano.function([index], cost, updates=grad_updates,
　　　　　　givens={
　　　　　　　　　　x: train_set_x[indexbatch_size:(index+1)batch_size],
　　　　　　　　　　y: train_set_y[indexbatch_size:(index+1)batch_size]}, allow_input_downcast=True)
lin 155, test_model_all = theano.function([x,y], test_error, allow_input_downcast=True)

　　（3）运行程序

THEANO_FLAGS=mode=FAST_RUN,device=gpu0,floatX=float32,warn_float64=raise python conv_net_sentence.py -static -word2vecTHEANO_FLAGS=mode=FAST_RUN,device=gpu0,floatX=float32,warn_float64=raise python conv_net_sentence.py -nonstatic -word2vecTHEANO_FLAGS=mode=FAST_RUN,device=gpu0,floatX=float32,warn_float64=raise python conv_net_sentence.py -nonstatic -rand

　　（4）结果惊人，训练时间提升了20x。

　　第一次跑gpu，以上过程，若有疏忽，还请多多指导。

Reference：

1、有关theano配置：http://deeplearning.net/software/theano/library/config.html

2、Ubuntu安装Theano+CUDA：http://www.linuxidc.com/Linux/2014-10/107503.htm

时间： 2024-10-19 15:45:44

GPU 加速NLP任务（Theano+CUDA）的相关文章

ubuntu 14.04 安装cuda，开启GPU加速

1 首先要开启GPU加速就要安装cuda.安装cuda,首先要安装英伟达的驱动.ubuntu有自带的开源驱动,首先要禁用nouveau.这儿要注意,虚拟机不能安装ubuntu驱动.VMWare下显卡只是模拟出的一块显卡,如果你安装cuda,会卡在ubuntu图形界面无法登陆系统.所以首先我们需要装双系统. 2 win10下安装ubuntu.win10,win8,是使用uefi引导的.不同于win7等老版本.所以不可以使用EasyBCD. 首先我们对C盘进行分区.我的C盘是固态硬盘,使用win10

手把手教你搭建深度学习平台——避坑安装theano+CUDA

python有多混乱我就不多说了.这个混论不仅是指整个python市场混乱,更混乱的还有python的各种附加依赖包.为了一劳永逸解决python的各种依赖包对深度学习造成的影响,本文中采用python的发行版Anaconda. Step1 安装Anaconda 这里不建议使用python3.4以后的Anaconda版本,因为太新的版本(python3.5)不支持python/matlab混合编程.所以为了以后方便,建议使用python2.7的Anaconda版本.Anaconda安装完成后,n

深度学习“引擎”之争：GPU加速还是专属神经网络芯片？

深度学习“引擎”之争:GPU加速还是专属神经网络芯片? 深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,可谓深度学习的“燃料”和“引擎”,GPU则是引擎的引擎,基本所有的深度学习计算平台都采用GPU加速.同时,深度学习已成为GPU提供商NVIDIA的一个新的战略方向,以及3月份的GTC 2015的绝对主角. 那么,GPU用于深度学习的最新进展如何?这些进展对深度学习框架有哪些影响?深度学习开发者应该如何发挥GPU的潜力?GPU与深度学习结合的前景

深度学习之五：使用GPU加速神经网络的训练

使用神经网络训练,一个最大的问题就是训练速度的问题,特别是对于深度学习而言,过多的参数会消耗很多的时间,在神经网络训练过程中,运算最多的是关于矩阵的运算,这个时候就正好用到了GPU,GPU本来是用来处理图形的,但是因为其处理矩阵计算的高效性就运用到了深度学习之中.Theano支持GPU编程,但是只是对英伟达的显卡支持,而且对于Python编程而言,修改一些代码就可以使用GPU来实现加速了. 一,首先需要安装GPU环境(说明:我开始按照官网步骤发生了错误,下面是我综合网上一些资料最后安装成功之后的

windows 10 64bit下安装Tensorflow+Keras+VS2015+CUDA8.0 GPU加速

原文地址:http://www.jianshu.com/p/c245d46d43f0 写在前面的话 2016年11月29日,Google Brain 工程师团队宣布在 TensorFlow 0.12 中加入初步的 Windows 支持.但是目前只支持64位,而且Python版本为3.5版本,需要CUDA 8.0 .之前Tensorflow对windows的支持并不好,导致如果需要使用它,需要转移到Linux平台,或者使用Cygwin什么的,总之挺麻烦,现在好了.麻烦事google帮我们解决了.感

编译GDAL支持OpenCL使用GPU加速

前言 GDAL库中提供的gdalwarp支持各种高性能的图像重采样算法,图像重采样算法广泛应用于图像校正,重投影,裁切,镶嵌等算法中,而且对于这些算法来说,计算坐标变换的运算量是相当少的,绝大部分运算量都在图像的重采样算法中,尤其是三次卷积采样以及更高级的重采样算法来说,运算量会成倍的增加,所以提升这些算法的处理效率优先是提高重采样的效率.由于GPU的多核心使得目前对于GPU的并行处理非常热,同时也能大幅度的提升处理速度.基于上述原因,GDALWARP也提供了基于OPENCL的GPU加速,之前在

[theano]安装-python theano cuda

I want to learning deep learning, so config cuda is a essential step. luckily it is very easy in Ubuntu install theano+cuda in ubuntu 1. install theano a) sudo apt-get install python-numpy python-scipy python-dev python-pip python-nose g++ libopenbla

matlab 中使用 GPU 加速运算

为了提高大规模数据处理的能力,matlab 的 GPU 并行计算,本质上是在 cuda 的基础上开发的 wrapper,也就是说 matlab 目前只支持 NVIDIA 的显卡. 1. GPU 硬件支持首先想要在 matlab 中使用 GPU 加速运算,需要计算机配备有 NVIDIA 的显卡,可在 matlab 中运行: >> gpuDevice 1 如果本机有 GPU 支持,会列出 CUDADevice 的相关属性. 2. GPU 和 CPU 之间的数据传递 gpuArray:将定义在 C

Ubuntu16.04.5 配置英伟达NVIDIA 显卡驱动实现GPU加速

Ubuntu16.04.5 配置英伟达NVIDIA 显卡驱动实现GPU加速标签(空格分隔): 运维系列一:系统环境初始化与系统包准备二:安装测试步骤一:系统环境初始化与系统包准备 apt-get update apt-get install vim openssh-server 准备系统所需要的安装包 NVIDIA-Linux-x86_64-440.44.run cuda_10.2.89_440.33.01_linux.run 二:安装测试步骤 1.1 安装Nvidia显卡驱动 1.