EDAC DIMM CE Error错误导致服务器重启

现象:

最近几天一个华为RH2285服务器一直不定时自动重启,基本每天一两次,查看系统日志报下面的错误,每秒记录一条错误日志

OS:OEL 6.5

$ more /var/log/message

Jul 21 08:54:32 customerkernel: EDAC MC1: 5486 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:33 customerkernel: EDAC MC1: 11480 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:34 customerkernel: EDAC MC1: 11330 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:35 customerkernel: EDAC MC1: 6584 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:36 customerkernel: EDAC MC1: 27428 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:37 customerkernel: EDAC MC1: 30113 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:38 customerkernel: EDAC MC1: 4453 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:39 customerkernel: EDAC MC1: 6269 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:40 customer kernel:EDAC MC1: 15720 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1 page:0x0offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:41 customerkernel: EDAC MC1: 16107 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

分析解决:

这个是[EDAC (Error Detection AndCorrection)](https://www.kernel.org/doc/Documentation/edac.txt) 的日志.

CE Error 是 Correctable Error 的简称,另外还有 UE(Uncorrectable Error)

按照上面的文档, 找出错误的DIMM:

[[email protected] log]# grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count

/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow1/ch1_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow1/ch2_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow1/ch2_ce_count:554836518

查到是 /mc1/csrow1/ch2, 根据结构图:

Channel 0   Channel 1

===================================

csrow0 | DIMM_A0   | DIMM_B0 |

csrow1 | DIMM_A0   | DIMM_B0 |

===================================

===================================

csrow2 | DIMM_A1   | DIMM_B1 |

csrow3 | DIMM_A1   | DIMM_B1 |

===================================

然后通过dmidecode查看:

[[email protected] log]# dmidecode -t memory |grep ‘Locator: DIMM‘

Locator: DIMM_D0

Locator: DIMM_D1

Locator: DIMM_E0

Locator: DIMM_E1

Locator: DIMM_F0

Locator: DIMM_F1

Locator: DIMM_A0

Locator: DIMM_A1

Locator: DIMM_B0

Locator: DIMM_B1

Locator: DIMM_C0

Locator: DIMM_C1

通过服务器控制台查看内存:

主板上内存插槽的分布:

结合报错日志:kernel: EDAC MC1: 16107 CE error on CPU#1Channel#2_DIMM#1 (channel:2slot:1

应该是内存插槽DIMM_F1的问题。

解决:

最后我们要做的就是,把有问题的F1插槽上的内存拔出来或是更换到其它的内存插槽上面,之后系统启动后不再报错。

参考:

http://blog.tankywoo.com/2014/12/02/edac-dimm-ce-error.html

http://serverfault.com/questions/648240/how-can-i-find-which-memory-have-ce-error

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-05 13:59:15

EDAC DIMM CE Error错误导致服务器重启的相关文章

linux异常处理:selinux配置错误导致无法重启

点击返回自学Linux集锦 linux异常处理:selinux配置错误导致无法重启 一次linux无法重启异常记录: 当时第一反应就是梳理最近的配置变更,特别是能预知相关的就是selinux配置变更. 原来是误将SELINUXTYPE看成SELINUX后,将其值改为disabled.导致操作系统服务启动,无法进入单用户模式.变更回来之后,一切正常. 解决方法一: 系统启动的时候,按下'e'键进入grub编辑界面,编辑grub菜单,使用上下键选择"kernel " 一行,按'e'键进入编

.net框架错误导致服务器错误,安全策略不允许操作,权限不足

“/”应用程序中的服务器错误. 安全性异常 说明: 应用程序尝试执行安全策略不允许的操作.要授予此应用程序所需的权限,请与系统管理员联系,或在配置文件中更改该应用程序的信任级别. 异常详细信息: System.Security.SecurityException: System.Security.Permissions.SecurityPermission 源错误: 执行当前 Web 请求期间生成了未经处理的异常.可以使用下面的异常堆栈跟踪信息确定有关异常原因和发生位置的信息. 堆栈跟踪: [S

Centos7.4 修改selinux错误导致服务器起不来

[[email protected] ~]# cat /etc/selinux/config # This file controls the state of SELinux on the system. # SELINUX= can take one of these three values: # enforcing - SELinux security policy is enforced. # permissive - SELinux prints warnings instead o

kafka没配置好,导致服务器重启之后,topic丢失,topic里面的消息也丢失

转,原文:https://blog.csdn.net/zfszhangyuan/article/details/53389916 ------------------------------------------------ 这个问题,在线上集群环境一般不容易出现,因为相关的日志文件参数都已经配置好了,而且经受住时间的的验证了. 作为新手,我在本地配置了一个单机kafka,用得是kafka自带的zookeeper服务. kafka安装很简单如下: 1).下载kafka: wget http:/

ERROR: ORA-28547: 连接服务器失败, 可能是 Oracle Net 管理错误

问题:当使用远程连接时出现 ERROR: ORA-28547: 连接服务器失败, 可能是 Oracle Net 管理错误 解决: 1.查看监听状态,发现不是我定义的orcl 2.使用Net Configuration Assistant从新配置listener.ora 3.修改listener.ora 4.重启服务 5.验证

Linux在fstab中因配置错误导致服务器主机无法重启的问题应该如何解决

fstab中配置错误导致系统无法启动的恢复方案 1制造错误的案例发生,在/etc/fstab中配置如下内容 结尾的倒数第一个为1表示进行磁盘检查,为0表示不进行磁盘检查,倒数第二个为0表示不备份,为1表示进行备份,一般除了/boot 和 / 使用磁盘检查,其余的都不使用磁盘检查.备份自己去备份,没必要让系统去帮你备份. 重启服务器主机,在启动过程中就会报错 2处理错误 上面的错误提示我们给出root密码或者使用Ctrl+D继续,但是Ctrl+D还是会重启,所以我们给出root密码进行处理. 给出

关于upload_max_filesize设置一直是2M,导致dede图片集上传图片出现upload error错误的问题

本问题绝对原创,花了一天时间解决,特此与大家分享 问题描述:采用dede做图片管理系统,用图片集管理功能,但是上传图片超过2M就出现upload error错误的问题 解决办法:测试phpinfo()函数可以查看php.ini的位置,然后打开设置好,却一直出现这样的错误,重启wamp都不行,后来分析是进程没有结束,因此ctrl+alt+del彻底结束http.exe进程,然后再看pnpinfo函数已经修改为新的300M上传文件大小限制,果然解决了问题.中间浪费不少时间找php.ini文件到处修改

服务器重启后SQL Server Agent由于"The EventLog service has not been started" 启动失败

案例环境: 操作系统   : Microsoft Windows Server 2003 Standard Edtion SP2 数据库版本 : SQL Server 2005 Standard Edition SP4 案例描述: 服务器重启过后,MSSQLSERVER服务自动重启了,但是SQLSERVERAGENT服务启动失败(当然SQL Agent服务的启动类型为自动启动(Automatic)),在这台服务器第二次遇到这种情况,第一次遇到时没太注意,以为只是特殊案例,直到在这台服务器第二次遇

网关配置错误导致Outlook无法连线

最近碰到一个Outlook 无法连接的问题,经过反复研究,最后发现是网关错误导致,下面将排错方法和过程分享给大家! 环境介绍:服务器Exchange 2010,用户端:Win7+Office2010,Win10+Office2016,内网用户通过Outlook以Exchange Client方式连接到Exchange 2010,同一网络,用户禁止访问Internet,之前一直工作正常! 问题描述:突然有一天,接用户报障:Win10+Office2016用户, Outlook无法工作,显示断线,无