Pytorch中多GPU训练指北

前言

在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情。Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用Pytorch多GPU训练的方式以及一些注意的地方。

这里我们谈论的是单主机多GPUs训练,与分布式训练不同,我们采用的主要Pytorch功能函数为DataParallel而不是DistributedParallel,后者为多主机多GPUs的训练方式,但是在实际任务中,两种使用方式也存在一部分交集。

使用方式

使用多卡训练的方式有很多,当然前提是我们的设备中存在两个及以上的GPU:使用命令nvidia-smi查看当前Ubuntu平台的GPU数量(Windows平台类似),其中每个GPU被编上了序号:[0,1]:

在我们设备中确实存在多卡的条件下,最简单的方法是直接使用torch.nn.DataParallel将你的模型wrap一下即可:

net=torch.nn.DataParallel(model)

这时,默认所有存在的显卡都会被使用。

如果我们机子中有很多显卡(例如我们有八张显卡),但我们只想使用0、1、2号显卡,那么我们可以:

net=torch.nn.DataParallel(model,device_ids=[0,1,2])

或者这样:

很简单的操作,这样我们就可以比较方便地使用多卡进行训练了。

另一种方法

在前言中提到过,另一种方法DistributedParallel,虽然主要的目标为分布式训练,但也是可以实现单主机多GPU方式训练的,只不过比上一种方法稍微麻烦一点,但是训练速度和效果比上一种更好。

为什么呢?

请看官方相关介绍:

nccl backend is currently the fastest and highly recommended backend to be used with Multi-Process Single-GPU distributed training and this applies to both single-node and multi-node distributed training

好了,来说说具体的使用方法(下面展示一个node也就是一个主机的情况)为:

上述的命令和我们平常的命令稍有区别,这里我们用到了torch.distributed.launch这个module,我们选择运行的方式变换为python -m,上面相当于使用torch.distributed.launch.py去运行我们的YOUR_TRAINING_SCRIPT.py,其中torch.distributed.launch会向我们的运行程序传递一些变量。

为此,我们的YOUR_TRAINING_SCRIPT.py也就是我们的训练代码中这样写(省略多余代码,只保留核心代码):

我们要注意,上述代码在运行的过程中产生了很多个,具体多少个取决你GPU的数量,这也是为什么上面需要torch.cuda.set_device(args.local_rank)设定默认的GPU,因为torch.distributed.launch为我们触发了n个YOUR_TRAINING_SCRIPT.py进程,n就是我们将要使用的GPU数量。

有一点想问的,我们每次必须要使用命令行的方式去运行吗?当然也可以一键解决,如果我们使用Pycharm,只需要配置成下面这样就可以了:

单显卡与DataParallel多显卡训练对比

最近两天训练一个魔改的mobilenetv2+yolov3,同样的优化方法同样的学习率衰减率,所有的参数都相同的情况下,发现单显卡训练的方式竟然比多显卡训练的方式收敛更快。

配置为两张1080Ti,使用Pytorch的版本为1.0.0。下图红线为使用一张1080Ti训练的情况,蓝线为使用两张1080Ti训练的情况,batchsize每张显卡设置为10,也就是说,使用两张显卡训练时的batchsize为单张显卡的两倍,同一个step时,双卡走的步数为单卡步数的两倍。这里使用的多卡训练方式为DataParallel。

但是下图可以看到,在双卡相同step的情况下,虽然红色曲线的损失相较蓝色下降的稍微慢一些,但是到了一定时候,两者的损失值会相交(此时未达到最低损失点),也就是说使用双卡和单卡训练时候loss损失收敛的速度是一样的。

更奇怪的是,下图中,在验证集中,单显卡虽然没有双显卡的准确度曲线增长迅速,但是到了某一点,单显卡的曲线会超过双显卡训练的精度,也就是说,单卡训练在前期没有双卡训练效果显著,但是到了训练中期效果就会优于双卡。

(上述两个图为训练早期和中期的展示,并没有完全训练完毕)关于为什么会这样的情况,有可能是因为训练中期所有的激活值更新幅度不是很明显(一般来说,权重值和激活值更新幅度在训练前期比较大),在不同GPU转化之间会损失一部分精度?。当然这仅仅是猜测,博主还没有仔细研究这个问题,待有结论时会在这里进行更新。

注意点

多GPU固然可以提升我们训练的速度,但弊端还有有一些的,有几个我们需要注意的点:

多个GPU的数量尽量为偶数,奇数的GPU有可能会出现中断的情况

选取与GPU数量相适配的数据集,多显卡对于比较小的数据集来说反而不如单个显卡训练的效果好

多GPU训练的时候注意机器的内存是否足够(一般为使用显卡显存x2),如果不够,建议关闭pin_memory(锁页内存)选项。

采用DistributedDataParallel多GPUs训练的方式比DataParallel更快一些,如果你的Pytorch编译时有nccl的支持,那么最好使用DistributedDataParallel方式。

关于什么是锁页内存:

pin_memory就是锁页内存,创建DataLoader时,设置pin_memory=True,则意味着生成的Tensor数据最开始是属于内存中的锁页内存,这样将内存的Tensor转义到GPU的显存就会更快一些。

主机中的内存,有两种存在方式,一是锁页,二是不锁页,锁页内存存放的内容在任何情况下都不会与主机的虚拟内存进行交换(注:虚拟内存就是硬盘),而不锁页内存在主机内存不足时,数据会存放在虚拟内存中。显卡中的显存全部是锁页内存,当计算机的内存充足的时候,可以设置pin_memory=True。当系统卡住,或者交换内存使用过多的时候,设置pin_memory=False。因为pin_memory与电脑硬件性能有关,pytorch开发者不能确保每一个炼丹玩家都有高端设备,因此pin_memory默认为False。

作者:我爱学python
链接:https://www.jianshu.com/p/bb28669018b3
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

原文地址:https://www.cnblogs.com/jfdwd/p/11196439.html

时间: 2024-07-30 08:12:03

Pytorch中多GPU训练指北的相关文章

Pytorch 多GPU训练-多计算节点并行-All you need

概述 本篇介绍多计算节点上的pytorch分布式训练.从环境配置到运行demo的所有步骤,step by step.没有理论原理,理论原理可以参考这里. 基础环境 多台linux计算节点,通过网络连接,不同主机之间可以相互ping通.网速越快越好,如果通信速度比较慢,就不用怎么考虑分布式训练. 所有linux计算节点都包含若干GPU,GPU数量可以不一致,但是所有GPU计算速度尽量一致,否则模型的同步时会等待大量时间(短板效应). 所有计算节点都拥有Pytorch运行环境,即都可以单独的运行训练

pytorch使用horovod多gpu训练

pytorch使用horovod多gpu训练 pytorch在Horovod上训练步骤分为以下几步: import torch import horovod.torch as hvd # Initialize Horovod 初始化horovod hvd.init() # Pin GPU to be used to process local rank (one GPU per process) 分配到每个gpu上 torch.cuda.set_device(hvd.local_rank())

pytorch:EDSR 生成训练数据的方法

Pytorch:EDSR 生成训练数据的方法 引言 Winter is coming 正文 pytorch提供的DataLoader 是用来包装你的数据的工具. 所以你要将自己的 (numpy array 或其他) 数据形式装换成 Tensor, 然后再放进这个包装器中. 使用 DataLoader 有什么好处呢? 就是他们帮你有效地迭代数据, 举例: import torch import torch.utils.data as Data #utils是torch中的一个模块,Data是进行小

Apache OFBiz指北1-概述

Apache ofbiz是Apache Open for Business的简写,顾名思义,这是一个开源的商业业务系统,项目的最新版本是12.04. 说起这个项目,用过的人(包括我在内)多半都是又爱又恨,爱是因为它为这个项目的核心内容非常的丰富,从前端销售,如网店,目录管理,内容管理:到后端的业务系统,订单,库存,采购,物流,制造(这个功能我没有用过,不熟悉)等:以及企业管理的一些模块,如财务,绩效,协作等.这些基本上把一个销售型企业的常见业务都囊括了.项目自己也实现了一套开发框架,如果是一个初

[转] iOS开发者的Weex伪最佳实践指北

[From] http://www.cocoachina.com/ios/20170601/19404.html 引子 这篇文章是笔者近期关于Weex在iOS端的一些研究和实践心得,和大家一起分享分享,也算是对学习成果的总结.文章里面提到的做法也许不是最佳实践,也许里面的方法称不算是一份标准的指南手册,所以标题就只好叫"伪最佳实践指北"了.有更好的方法欢迎大家一起留言讨论,一起学习. 由于笔者不太了解Android,所以以下的文章不会涉及到Android. 一. React Nativ

中文文案排版指北

中文文案排版指北 統一中文文案.排版的相關用法,降低團隊成員之間的溝通成本,增強網站氣質. Other languages: English Chinese Traditional Chinese Simplifed 目次 空格 中英文之間需要增加空格 中文與數字之間需要增加空格 數字與單位之間需要增加空格 全形標點與其他字符之間不加空格 -ms-text-autospace to the rescue? 標點符號 不重複使用標點符號 全形和半形 使用全形中文標點 數字使用半形字符 遇到完整的英

Android 内存分析指北

android 内存泄漏分析指北 简单来说内存泄漏就是当对象不再被应用程序使用,但是垃圾回收器却不能移除它们,因为它们正在被引用 java 垃圾回收介绍: Java 虚拟机运行所管理的内存包括以下几个运行时的数据区域 如下图: 程序计数器: 一块比较小的内存区域,可以看作是当前线程所执行的字节码的行号指示器.且每个线程都有一个独立的程序计数器. java 虚拟机栈: 线程私有的,描述的是java 方法执行的内存模型,每个线程执行的时候都会创建一个栈帧用于储存 局部变量.操作数栈.动态链接.方法出

VMware Workstation 安装以及Linux虚拟机安装 指北

最近有挺多小伙伴跟我说起虚拟机这个东西,所以,今天就给大家写一篇虚拟机安装使用指北吧. 虚拟机(英语:virtual machine),在计算机科学中的体系结构里,是指一种特殊的软件,可以在计算机平台和终端用户之间创建一种环境,而终端用户则是基于这个软件所创建的环境来操作软件.(该段说明来自wiki) 我们即将安装的软件 VMware 则是系统虚拟机.可以轻松在一个操作系统上面安装多一个或者多个操作系统,如kali.Ubuntu.centos等Linux,windows系统,甚至Mac系统都可以

Markdown 标记语言指北 - 源码

这是上一篇博客的源代码. 这是班刊约稿的一篇文章. 全文约6000字, 预计需要 60 分钟读完. # Markdown 标记语言指北 #### TOC 1. [什么是 Markdown?](#%E4%BB%80%E4%B9%88%E6%98%AF-Markdown) 1. [Markdown 可以用来干什么?](#Markdown-%E5%8F%AF%E4%BB%A5%E7%94%A8%E6%9D%A5%E5%B9%B2%E4%BB%80%E4%B9%88) 1. [第一步?](#%E7%AC