AMD cpu 下 Pytorch 多卡并行卡死问题解决

dataparallel not working on nvidia gpus and amd cpus

https://github.com/pytorch/pytorch/issues/13045

 

问题:

多卡运行时, 网络会卡在那里不能运行.

系统是 AMD Ryzen5 1600x 和 两张taitanXP

之前两张卡是2070+taitanXP是可以多卡运行的, 只不过是显存不一样大...

看了下日志, 都是下面的错误

these error messages were found in the dmesg log:

[1118468.873266] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000ea13a000 flags=0x0020]
[1118468.942145] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000ea139068 flags=0x0020]
[1118468.942189] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0000040 flags=0x0020]
[1118468.942227] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d00007c0 flags=0x0020]
[1118468.942265] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0001040 flags=0x0020]
[1118468.942303] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0000f40 flags=0x0020]
[1118468.942340] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d00016c0 flags=0x0020]
[1118468.942377] nvidia 0000:0a:00.0: AMD-Vi: Event logged [IO_PAGE_FAULT domain=0x000f address=0x00000000d0002040 flags=0x0020]

搜了一下, 似乎是一个bug . . .

临时解决办法:

修改 /etc/default/grub

GRUB_DEFAULT=0
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=10
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX="iommu=soft" # 注意修改这一行 ...

然后

sudo update grub

最后重启

这样就可以正常运行了

原文地址:https://www.cnblogs.com/JiangOil/p/10513906.html

时间: 2024-08-10 19:34:52

AMD cpu 下 Pytorch 多卡并行卡死问题解决的相关文章

AMD CPU编码的含义

AMD CPU编码的含义 CPU身上的OPN代码是CPU所有特性的表达,但是这种OPN代码是CPU厂商自家生产时的标记,长长一串的代码表示了CPU所属的类别,针脚数目,最高电压.最高温度.核心的制程和核心的名称,由于同一接口型号的CPU,由于周期的不同,可能使用了不同的核心或制程,而它们所能耐受的最高温度和电压也有可能不同,但是在出售的时候,商家并不作任何区分,比如说我们买一块754接口的Sempron2800+处理器,它们有Paris.Oakville.Palermo三种核心,而最后一种Pal

Oracle Study之--AMD CPU安装Oracle 11gR2 RAC错误

Oracle Study之--AMD CPU安装Oracle 11gR2 RAC错误 系统环境: 操作系统: RedHat  EL55     Oracle :     Oracle 11gR2 Grid +  Oracle 1.错误现象 [[email protected] install]# /u01/11.2.0/grid/root.shRunning Oracle 11g root.sh script... The following environment variables are 

XP下切换输入法造成程序卡死的原因及解决方案

http://blog.csdn.net/ysai/article/details/7468961 XP下切换输入法造成程序卡死的原因及解决方案 (by ysai) 现象: 在XP下,如果线程中创建了窗口而线程中没有消息循环,那么可能切换输入法时会造成程序卡死(某些XP下必现,跟安装盘有关) 原因: 线程创建一个窗口后,系统会自动创建一个Default IME窗口以便通知输入法消息(可能只有可以接收输入的窗口才会创建,未证实) XP下切换输入法,会向所有DefaultIME窗口SendMessa

linux多核cpu下的负载查看

linux下使用top命令或uptime命令 单核cpu下,负载超过0.7即意味着瓶颈,多核cpu下按核数*0.7计算负载 如2核,1.4可能即意味着负载较吃力了 查看核数 grep 'model name' /proc/cpuinfo | wc -l

struts2设置index.action为主页(另:web.xml编辑卡死问题解决)

本来是弄拦截器的问题,结果弄主页的时候,还是发现了问题. 公司网站的项目里面,是用index.action作为主页的,访问WEB-INF里面的html文件.可是我设置的却不成功,追根到底,一个原因,struts2比较特殊,struts.xml里面必须多配置一个request和response. <?xml version="1.0" encoding="UTF-8"?> <web-app id="WebApp_9" versio

Python下调用json.dumps中文显示问题解决办法

json.dumps在默认情况下,对于非ascii字符生成的是相对应的字符编码,而非原始字符,例如: import json js = json.loads('{"haha": "哈哈"}') print json.dumps(js) 得到的结果是{"haha": "\u54c8\u54c8"}, 中文字符打印出来的是utf-8转码...这个时候查血了docs.python.org,还有个参数ensure_ascii 调用了j

IE和Firefox下flash挡住div层的问题解决方法

1 <object codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="100%" height="80"> 3 <param name="movie" value="flash地址" /> 4 <param name=&qu

Windows Server2008下MYSQL外网无法访问问题解决

这几天为俱乐部配置了个服务器,用作项目开发之用. 安装的是windows Server 2008 R2 操作系统 按照国际管理,安装了数据库 MYSQL 5.0. 一路顺利,可以通过外部连接MYSQL的时候出现了问题,无论如何也连接不上 发现这方面的资料很少,几经摸索,终于知道是防火墙的问题 解决方法如下: 选择:网络->windows 防火墙->高级设置->入站规则 然后点击右上角的新建规则 选择"端口" 下一步,输入3306端口,加入规则, 然后再次点击新建规则

Windows XP系统下添加任务计划常出现问题解决办法

Windows XP系统下添加任务计划常出现问题解决办法 计划任务就是让电脑在指定的时间内执行指定的动作(计划动作),这些动作可以是一个程序,也可以是一个批处理,但是至少是可以运行的(通俗一些就是双击可以运行的). 添加步骤:“开始”-->“设置”-->“控制面板”-->“任务计划”(或者“开始”-->“程序”-->“附件”-->“系统工具”-->“任务计划”),打开到“任务计划”窗口后,双击“添加任务计划”,然后一步一步按步骤运行.     问题一:在试着设置任