pytorch中使用多显卡训练以及训练时报错：expect more than 1 value per channel when training, got input size..

pytorch在训练中使用多卡：

        conf.device = torch.device(‘cuda:0‘ if torch.cuda.is_available() else "cpu")
        conf.device_ids = list(conf.device_ids)
        self.model = torch.nn.DataParallel(self.model, device_ids=conf.device_ids)
        self.model.to(conf.device)

然后在训练的命令行需要指定GPU：

export CUDA_VISIBLE_DEVICES=4,5,6,7

在pytorch内部，conf.device_ids依旧是从0开始的；

训练的时候报错：

是由于batchnorm层需要大于一个样本去计算其中的参数，网上搜索了解决方法是将dataloader的一个丢弃参数设置为true：

但是我设置后依旧会报错，然后就在train里面人为修改了一下：

如果剩下的照片为1，那么就丢掉，就可以了：

原文地址：https://www.cnblogs.com/rainsoul/p/11779176.html

时间： 2024-10-08 23:42:22

pytorch中使用多显卡训练以及训练时报错：expect more than 1 value per channel when training, got input size..的相关文章

facenet pyhton3.5 训练 train_softmax.py 时报错AttributeError: 'dict' object has no attribute 'iteritems'

报错原因:在进行facenet进行train_softmax.py训练时,在一轮训练结束进行验证时,报错AttributeError: 'dict' object has no attribute 'iteritems' 解决方案:由于我的python时3.5的,Python3.5中:iteritems变为items,找到train_softmax程序修改如下: facenet pyhton3.5 训练 train_softmax.py 时报错AttributeError: 'dict' obj

Entity中Lazy Load的属性序列化JSON时报错

The server encountered an internal error that prevented it from fulfilling this request.org.springframework.http.converter.HttpMessageNotWritableException: Could not write JSON: failed to lazily initialize a collection of role: com.party.dinner.entit

Spring中的一个错误：使用Resources时报错（The annotation @Resources is disallowed for this location）

在学习Spring的过程中遇到一个错误:在使用注解@resources的时候提示:The annotation @Resources is disallowed for this location 后来来在学问Java网友的时候解决了. 原来的代码是这样的: 1 package com.show.biz; 2 3 import javax.annotation.Resources; 4 5 import com.show.biz.UserBiz; 6 import com.show.dao.Us

如何修改WAMP中mysql默认空密码以及修改时报错的处理方法

WAMP安装好后,mysql密码是为空的,那么要如何修改呢?其实很简单,通过几条指令就行了,下面我就一步步来操作. 首先,通过WAMP打开mysql控制台. 提示输入密码,因为现在是空,所以直接按回车. 然后输入“use mysql”,意思是使用mysql这个数据库,提示“Database changed”就行. 然后输入要修改的密码的sql语句“update user set password=PASSWORD('hooray') where user='root';”,注意,sql语句结尾的

Pytorch中多GPU训练指北

前言在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情.Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用Pytorch多GPU训练的方式以及一些注意的地方. 这里我们谈论的是单主机多GPUs训练,与分布式训练不同,我们采用的主要Pytorch功能函数为DataParallel而不是DistributedParallel,后者为多主机多GPUs的训练方式,但是在实际任务中,两种使用方式也存在一部分交集.

pytorch中如何处理RNN输入变长序列padding

一.为什么RNN需要处理变长输入假设我们有情感分析的例子,对每句话进行一个感情级别的分类,主体流程大概是下图所示: 思路比较简单,但是当我们进行batch个训练数据一起计算的时候,我们会遇到多个训练样例长度不同的情况,这样我们就会很自然的进行padding,将短句子padding为跟最长的句子一样. 比如向下图这样: 但是这会有一个问题,什么问题呢?比如上图,句子“Yes”只有一个单词,但是padding了5的pad符号,这样会导致LSTM对它的表示通过了非常多无用的字符,这样得到的句子表示就

关于Pytorch中accuracy和loss的计算

这几天关于accuracy和loss的计算有一些疑惑,原来是自己还没有弄清楚. 给出实例 def train(train_loader, model, criteon, optimizer, epoch): train_loss = 0 train_acc = 0 num_correct= 0 for step, (x,y) in enumerate(train_loader): # x: [b, 3, 224, 224], y: [b] x, y = x.to(device), y.to(de

Pytorch中的自编码(autoencoder)

Pytorch中的自编码(autoencoder) 本文资料来源:https://www.bilibili.com/video/av15997678/?p=25 什么是自编码先压缩原数据.提取出最有代表性的信息.然后处理后再进行解压.减少处理压力通过对比白色X和黑色X的区别(cost函数),从而不断提升自编码模型的能力(也就是还原的准确度) 由于这里只是使用了数据本身,没有使用label,所以可以说autoencoder是一种无监督学习模型. 实际在使用中,我们先训练好一个autoencod

在LinuxMint 17 MATE中安装NVIDIA显卡驱动

第一步:在Linux系统中安装Nvidia显卡驱动需要关闭X Server. 打开终端,进入ROOT权限,执行以下命令 $ sudo service mdm stop 此时将会把X Server关闭,并且进入命令行. 第二步:安装显卡驱动 $ cd /驱动所在目录 $ sh ./NVIDIA-Linux-x86-340.65.run 第三步:重新启动或重新开启X Server 重新开启X Server $ sudo service mdm start