[troubleshoot][archlinux][X] GPU HANG

前言:如下内容已经是在hang完大概半个多月后了,当时想写,一直没过来写,写blog果然也是已经花费时间的事情。

最近一直在休假,电脑的使用频率也不多。后来还是为了生活,不情愿的去开始上班了,上班的第一件事是什么呢? 当然是配置网路,配好了网路之后,我就开始滚系统(就全系统更新至最新包的意思,因为我们archer的特性之一就是滚动更新,恩,更新都是用滚的。),好久没有正经用了,当然要进入最好最新的状态才能稍微愉快的开始工作了,随便也为新同事们秀一秀我的系统。

就酱,上了两天。就发现不对劲。用着用着X就挂了。不用说,首先就是怀疑滚,系统滚进了什么不稳定的包。

查所有滚动包的列表,它们在这里:

[[email protected] ~]$ vim /var/log/pacman.log 

查看系统日志,两招:1, journalctl。2. dmesg

[[email protected] ~]$ dmesg 

实在抱歉的是,我当时(就是半个月前)没有把log留存下来,log里边的主要内容就是,

GPU HANG,请到 ”https://bugs.freedesktop.org/ “ 去报BUG

综合以上信息,我首先判断是intel的驱动出了问题。查看滚包列表里也确实,发现了内核包(linux)的更新。(intel的驱动在linux内核包里)。然后我就downgrade了linux内核包。

downgrade的方法: 因为arch是滚动更新的,且所有包都由上游提供,所以不提供官方的downgrade方法。换句话说就是arch只负责让你滚上去,而不负责帮你滚下来。

基于以上,一般的做法是,保留旧几个版本的更新包,当出现问题时,可以手动讲单包回退至指定版本。

旧包都保留在这个地方 /var/cache/pacman/pkg/ 系统会基于规则删除最旧的,路径和规则都是可配置的,怎么配就不写了,有兴趣的自行查询手册。

然后找到我需要降回去的linux版本的包,使用pacman降回去,并重启:

[[email protected] ~]$ pacman -U /var/cache/pacman/pkg/linux-4.7.6-1-x86_64.pkg.tar.xz 

以上,是确认了确实是某包故障时的常规解决方法。

然而,可想而知,我的问题,并没有那么简单。降级了kernel,问题依然存在。

于是又陷入了毫无头绪的状态下,遂,求google帮忙。同样没有找到有用的信息。

这期间我也是一直在搜寻着导致这个问题的蛛丝马迹,我当时依然在看dpdk的文档,同时开着win虚拟机和一些其他项目的同事通过QQ沟通,是的,大家依赖着QQ。这样,工作不久,内存就会达到某个临界值,chrome和qemu都在吃内存。于是我开始怀疑chrome出了什么问题。关了chrome的硬件加速,换firefox,都未能顺利解决问题。

变得束手无策了,我开始怀疑KDE(倒霉的KDE,没次又被怀疑),想换到FVWM,这个时候又提到了FVWM,尽早重新配置起来。于是在重新配置FVWM之前,我绝望般的打算去报BUG了,因为这个问题,很难提供有用的信息给开发者,从报bug到解决,定然是个漫长的过程。

报bug之前,自然是要找一找有没有报过的bug。然后我就发现了这个:

https://bugs.freedesktop.org/show_bug.cgi?id=89360

其中提到:

Short version
---
adding ‘intel_iommu=igfx_off‘ helped

是的,还记得,为了调试DPDK,我打开了vt-d功能么?就是为了让PCI设备直接在用户态使用。参加http://www.cnblogs.com/hugetong/p/5904024.html

如此回想起来,每次出问题都是在开启了qemu之后。

总结:

1. 去掉内核选项 intel_iommu=on

2. 升级内核至最新。

3. 重启

问题解决 : )

解决归解决,还是有两个引申出来的问题

1. FVWM,需要重新配置起来,处于可用状态,随时待命。

2. 听闻了 zfs,brtfs两个文件系统?可以文件系统级别快照,回滚??

时间: 2024-11-08 15:56:09

[troubleshoot][archlinux][X] GPU HANG的相关文章

[troubleshoot][archlinux][X] plasma(KDE) 窗口滚动刷新冻结(约延迟10s)(已解决,root cause不明,无法再次复现)

现象: konsole,setting等plasma的系统应用反应缓慢,在滚动条滚动时,尤为明显. 触发条件: 并不是十分明确的系统滚动升级(Syu)后,产生. 现象收集: 可疑的dmesg [ 35.728342] nouveau 0000:04:00.0: DRM: resuming kernel object tree... [ 35.728469] nouveau 0000:04:00.0: priv: HUB0: 6013d4 badf573f (1e408200) [ 35.7660

[troubleshoot][archlinux][bcache] 修改linux文件系统 / 分区方案 / 做混合硬盘 / 系统转生大!手!术!(调整底层架构,不!重!装!)

目标: 我要做的事情是:修改文件系统,硬盘分区方案,但是不重装系统,整个操作不被应用层感知. 背景: 我的笔记本 ThinkPad T450.8G内存 + 16GB SSD + 1TB HDD.预装windows7. 在预装系统里16GB的SSD好像是被win7用作睡眠之类的功能.电脑拿到手之后的第一件事我就是想办法把linux装进去.我当初的方案是: 1. 备份win7.比较是预装的,也算是正版.我把1TB硬盘C盘中的文件压缩拷贝出来了.然后又把硬盘开始1GB dd了出来.这样有一点可以装回去

[daily][troubleshoot][archlinux][wps][font] wps文档中的图内容无法显示中文

序 用linux作为工作生产环境的几个需要解决的问题之一是:文档协作,即如何兼容Micro$oft Office格式的文档. 我一般的工作方式是:在linux下创建一个win7的虚拟机,安装常用的windows软件,office,QQ,teamview等. 写文档的时候,我会进入win虚拟机,使用office软件进行编写,保证其他大多数使用windows的同事可以正常打开我的文档. 读文档的时候,我在linux里使用wps.先后用过openoffice, libreoffice,wps.wps与

[archlinux][hardware] ThankPad T450自带SSD做bcache之后的使用寿命分析

这个分析的起因,是由于我之前干了这两个事: [troubleshoot][archlinux][bcache] 修改linux文件系统 / 分区方案 / 做混合硬盘 / 系统转生大!手!术!(调整底层架构,不!重!装!) [archlinux][hardware] 查看SSD的使用寿命 在12月06日完成了底层硬盘的调整之后,做了如下的硬盘指标统计: /home/tong/Workspace/system/bcache [[email protected]] [17:18] > cat 2016

[daily][archlinux][fonts] 在linux下管理字体

序: linux是社区搞出来, 商业应用也都是服务器场景.社区里又都是技术人员.字体又是细节.而且会英文早成了标配.所以没有很多社区以外的人力来搞字体这个毫无回报的东西. 结果很自然的,装linux桌面环境的几个问题之一,就包括了字体.与字体相关的一般问题主要就是中文显示问题.搞定了中文之后基本就不影响使用了.然后当你继续使用下去之后,就会出现更高的要求,就是希望为了美观要求而得到了一个好看的字体. 于是就会牵扯出,分辨率,等宽,高清等问题.但是没关系,因为在搞定中文字体的时候,你已经学会了安装

[daily][archlinux][rsync] rsync

科普文档:https://wiki.archlinux.org/index.php/Rsync 之前改文件系统时,用过. 然而用的不太对,导致一部分文件的权限出了问题. [troubleshoot][archlinux][bcache] 修改linux文件系统 / 分区方案 / 做混合硬盘 / 系统转生大!手!术!(调整底层架构,不!重!装!) 使用rsync做全系统备份的教程:https://wiki.archlinux.org/index.php/Full_system_backup_wit

IIS Hang Troubleshoot

Your website maybe stop working and response very lowly. How to find out the reason? Below are the guide, hope it will help you out! Identify it is a hang What website hang really means? An IIS website hangs whenever it appears to stop serving incomi

【转自mos文章】数据库 hang问题的诊断信息收集方法

数据库 hang问题的诊断信息收集方法 来源于: How to Collect Diagnostics for Database Hanging Issues (文档 ID 452358.1) 适用于: Oracle Database - Enterprise Edition - Version 9.0.1.0 and later Oracle Database - Personal Edition - Version 9.0.1.0 and later Oracle Database - St

Tensorflow Windows Build with GPU Support

Step-by-step Windows build 虽然Research一直在用Caffe,而且用的飞起,但还是很关注tensorflow社区的事情,最近发现TF有windows版本的了,就自己试了试. 步骤:https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/cmake Pre-requisites: Microsoft Windows 10 Microsoft Visual Studio Enter