Linux Kernel 2.6.28 以上有BUG,系统运行第208.5天down机

简介:

业务服务器有一台服务器出现意外down机,服务器ping 不通、无法登陆,本想通过公司KVM系统登陆系统重启解决,登陆KVM后发现系统屏幕打印大量的内核错误,KVM无法使用、无法发送重启服务器。果断联系 机房人员帮助手工重启,手动重启服务器后服务器运行状态回归正常。

在服务器重启前通过KVM管理系统能看到系统屏幕上打印的内核错误,此时做了一个页面截屏,后根据屏幕打印的报错关键字,进行查找追踪发现原来我们的linux服务器内核bug问题导致。

此内核BUG问题会直接导致服务器down机,查找相关资料发现这个内核BUG存在相关触发条件,下面对个人收集整理的一些资料进行归纳,给大家借鉴。

1.官方描述:

sched_clock() overflow after 208.5 days in Linux Kernel

Linux Kernel 2.6.28版本以上内核存在此问题。

服务器出现故障时系统在屏幕上打印错误大致如下:

Jun  8 14:26:06 acme kernel: irq 19: nobody cared (try booting with the "irqpoll" option)

Jun  8 14:26:06 acme kernel: Pid: 0, comm: swapper Not tainted 2.6.32-220.7.1.el6.x86_64 #1

Jun  8 14:26:06 acme kernel: Call Trace:

Jun  8 14:26:06 acme kernel: <IRQ>  [<ffffffff810db42b>] ? __report_bad_irq+0x2b/0xa0

Jun  8 14:26:06 acme kernel: [<ffffffff810db62c>] ? note_interrupt+0x18c/0x1d0

Jun  8 14:26:06 acme kernel: [<ffffffff810dbd4d>] ? handle_fasteoi_irq+0xcd/0xf0

Jun  8 14:26:06 acme kernel: [<ffffffff8100df09>] ? handle_irq+0x49/0xa0

Jun  8 14:26:06 acme kernel: [<ffffffff814f4dbc>] ? do_IRQ+0x6c/0xf0

Jun  8 14:26:06 acme kernel: [<ffffffff8100ba53>] ? ret_from_intr+0x0/0x11

Jun  8 14:26:06 acme kernel: [<ffffffff8100ba53>] ? ret_from_intr+0x0/0x11

Jun  8 14:26:06 acme kernel: <EOI>  [<ffffffff812c4b0e>] ? intel_idle+0xde/0x170

Jun  8 14:26:06 acme kernel: [<ffffffff812c4af1>] ? intel_idle+0xc1/0x170

Jun  8 14:26:06 acme kernel: [<ffffffff813fa027>] ? cpuidle_idle_call+0xa7/0x140

Jun  8 14:26:06 acme kernel: [<ffffffff81009e06>] ? cpu_idle+0xb6/0x110

Jun  8 14:26:06 acme kernel: [<ffffffff814e5ffc>] ? start_secondary+0x202/0x245

Jun  8 14:26:06 acme kernel: handlers:

Jun  8 14:26:06 acme kernel: [<ffffffffa01e5020>] (rtl8169_interrupt+0x0/0x380 [r8169])

2.经查找资料分析此内核bug经查找资料有3个触发条件;

a:linux系统内核版本Linux Kernel 2.6.28版本以上(函2.8);

b.系统运行208天左右;

c.服务器使用Pentium 4 以上intel CPU(含CPU、32bit/64bit);

很悲催!我们的服务器上面条件全满足。

3.bug相关通报

版本是2011年发布的  如果没有打过补丁 应该没有修复这个bug

kernel-2.6.32-220.4.2.el6 centos在这个内核版本修复了这个bug

此缺陷在 Linux Kernel 2.6.32.50 / 3.0.13 / 3.1.5 已被修正。

3. 内核升级

经过排查排查发现我们好多服务器都满足上面的内核BUG触发条件,果断安排服务器计划,避免服务器意外DOWN机事情再次发生,下面是对相关操作进行简单记录,以供大家参考:

3.1:确认系统版本和内核版本

[[email protected] ~]# uname -a

Linux slave2 2.6.32-220.el6.x86_64 #1 SMP Tue Dec 6 19:48:22 GMT 2011 x86_64 x86_64 x86_64 GNU/Linux

[[email protected] ~]# more /etc/redhat-release

CentOS release 6.2 (Final)

[[email protected] ~]# more /proc/version

Linux version 2.6.32-220.el6.x86_64 ([email protected]) (gcc version 4.4.6 20110731 (Red Hat 4.4.6-3) (GCC) ) #1 SMP Tue Dec 6 19:48:22 GMT 2011

[[email protected] ~]#

3.2:内核升级:

我使用的是覆盖处理方式,执行如下命令;

yum update -y

升级完成,重启服务器新的内核版本才能生效。

init 6

3.3:检查升级结果:

[[email protected] ~]# uname -a

Linux master 2.6.32-358.11.1.el6.x86_64 #1 SMP Wed Jun 12 03:34:52 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

[[email protected] ~]# more /etc/redhat-release

CentOS release 6.4 (Final)

[[email protected] ~]# more /proc/version

Linux version 2.6.32-358.11.1.el6.x86_64 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-3) (GCC) ) #1 SMP Wed Jun 12 03:34:52 UTC 2013

系统重启完成后,通过查看发现内核版本已经升级到2.6.32-358,系统升级为6.4目前最新版本。

redhat官方发布消息:

https://rhn.redhat.com/errata/RHBA-2012-0124.html

centos官方发布消息

https://www.centos.org/modules/newbb/viewtopic.php?topic_id=42031

相关信息:

https://www.centos.org/modules/newbb/viewtopic.php?topic_id=42031

http://bugs.centos.org/view.php?id=4586#c14466

http://www.ubuntu-tw.org/modules/newbb/viewtopic.php?topic_id=46348

http://bugs.centos.org/view.php?id=5397

时间: 2024-10-14 03:34:18

Linux Kernel 2.6.28 以上有BUG,系统运行第208.5天down机的相关文章

关于Linux Kernel 2.6.28 以上有缺陷,在第208.5天自行重啟的问题

    今天看到一转帖如下: Linux Kernel 2.6.28 以上有缺陷,在第208.5天自行重啟 https://access.redhat.com/knowledge/solutions/68466 sched_clock() overflow around 208.5 days in Linux Kernellast modified by Raghu Udiyar on 04/10/12 - 09:12Issue Linux Kernel panics when sched_cl

Linux硬件资源管理与外设设备使用、系统运行机制及用户管理

Linux硬件资源管理 PCI设备         显卡            $>>dmesg |grep -i vga[    0.000000] Console: colour VGA+ 80x25[    0.262267] vgaarb: device added: PCI:0000:00:0f.0,decodes=io+mem,owns=io+mem,locks=none[    0.262271] vgaarb: loaded[    0.262272] vgaarb: brid

用vscode阅读linux kernel

1. 移除多余文件 因为linux kernel文件数量过多,会导致系统很慢. 在File->prefenrence->setting->workspace, 右上角有个切换到json文件,编辑如下: { "search.exclude": { "**/.git": true, "**/.svn": true, "**/.DS_Store": true, "**/drivers": tru

Linux Kernel - Debug Guide (Linux内核调试指南 )

http://blog.csdn.net/blizmax6/article/details/6747601 linux内核调试指南 一些前言 作者前言 知识从哪里来 为什么撰写本文档 为什么需要汇编级调试 ***第一部分:基础知识*** 总纲:内核世界的陷阱 源码阅读的陷阱 代码调试的陷阱 原理理解的陷阱 建立调试环境 发行版的选择和安装 安装交叉编译工具 bin工具集的使用 qemu的使用 initrd.img的原理与制作 x86虚拟调试环境的建立 arm虚拟调试环境的建立 arm开发板调试环

用qemu与gdb调试linux kernel tcp/ip协议栈

description 用gdb debug linux kernel容易吗?其实要走到这步真的不容易啊,其实也难道是不难,就是要知道的东西太多了.用gdb debug linux kernel 可以有2中方式:UML和qemu方式,这里主要说qemu,从源码编译安装qemu很费劲. 准备环境 linux OS: Debian7.5-i386(当时最新的Wheezy,装在VMware10上,我用的在线安装,安装后以text方式跑起来,我的笔记本配置资源有限!) root fs:Debian-Wh

ubuntu: qemu+gdb 调试linux kernel 学习笔记

声明: 本笔记内容并非本人原创,90%来自网络资料的整合.同时,由于自己是刚刚接触qemu & gdbserver remote debug,本文也就算不得教程,仅供有缘人参考而已. ------------------------------------------------------------------------------------------------分割线-----------------------------------------------------------

linux kernel menuconfig【转载】

原文网址:http://www.cnblogs.com/kulin/archive/2013/01/04/linux-core.html Linux内核裁减 (1)安装新内核: i)将新内核copy到/usr/src下, #tar xzvf linux-2.6.38.4.tar.gz -----解压缩. ii) 将名为linux的符号链接删掉,这是旧版本内核的符号链接. #ln -s linux-2.6.38.4 linux ------建立linux-2.6.38.4的符号链接linux. (

linux kernel 字符设备详解

有关Linux kernel 字符设备分析: 参考:http://blog.jobbole.com/86531/ 一.linux kernel 将设备分为3大类,字符设备,块设备,网络设备. 字符设备是指只能一个字节一个字节读写的设备, 常见的外设基本上都是字符设备. 块设备:常见的存储设备,硬盘,SD卡都归为块设备,块设备是按一块一块读取的. 网络设备:linux 将对外通信的一个机制抽象成一个设备, 通过套接字对其进行相关的操作. 每一个字符设备或块设备都在/dev目录下对应一个设备文件.l

使用 GIT 获得Linux Kernel的代码并查看,追踪历史记录

Linux kernel  的官方 GIT地址是: http://git.kernel.org/cgit/linux/kernel/git/stable/linux-stable.git 可以从这个地址拿到 kernel 的 代码仓库. 1. 拿代码仓库 [plain] view plaincopyprint? git clone git://git.kernel.org/pub/scm/linux/kernel/git/stable/linux-stable.git 2. 查看状态: [pla