ASR9K MOD160板卡 Parity error 自动重启

ASR9K 的MOD160卡自动重启,表现为MOD160子卡上的MPA子卡上的端口均不通,出现中断。

自动重启的原因可能是由于Parity error 奇偶校验错误

检查ASR9K 的系统log,会发现如下日志:

LC/0/2/CPU0:May  9 06:05:19.776 : prm_server_ty[316]: %PLATFORM-NP-3-ECC : prm_ser_check: Parity error detected: NP 0, block 0x15 (RSV), offset 67, memid 557, name KMEM_HIGH9, addr 0x00000002, bit 2147483648, ext info 0xffffffff 0xffffffff 0xffffffff 0xffffffff, action 2 (Reset)

LC/0/2/CPU0:May  9 06:05:19.781 : pfm_node_lc[304]: %PLATFORM-NP-0-NON_RECOVERABLE_SOFT_ERROR : Set|prm_server_ty[168017]|0x1008000| A non-recoverable soft error has been detected on NP0.  The linecard will be rebooted.

LC/0/2/CPU0:May  9 06:05:19.787 : pfm_node_lc[304]: %PLATFORM-PFM-0-CARD_RESET_REQ : pfm_dev_sm_perform_recovery_action, Card reset requested by: Process ID: 168017 (prm_server_ty), Fault Sev: 0, Target node: 0/2/CPU0, CompId: 0x1f, Device Handle: 0x1008000, CondID: 1034, Fault Reason:  A non-recoverable soft error has been detected on NP0.  The linecard will be rebooted.

LC/0/2/CPU0:May  9 06:05:19.787 : syslog_dev[89]: pfm_node_lc[304]: Request Graceful Reboot via Sysmgr: Reason: pfm_dev_sm_perform_recovery_action, Card reset requested by: Process ID: 168017 (prm_server_ty), Fault Sev: 0, Target node: 0/2/CPU0, CompId: 0x1f, Device Handle: 0x1008000, CondID: 1034, Fault Reason:  A non-recoverable soft error has been detected on NP0.  The linecard will be rebooted.

此类Parity error 的问题在很多设备上都会出现,所有的硬件厂商都会遇到此类问题。

这类问题的原理,板卡芯片的存储芯片由于硬件问题,或者背景辐射(包括宇宙射线,电磁干扰等因素),导致某些存储区域数据异常。

这些数据异常有些不重要而被系统忽略,或者可以被软件自动修复,但不是所有这类问题都能被修复和忽略。如果异常的数据区块是硬件故障引起的,或者该区块处于软件系统无法修复而且又不能忽略的情况,操作系统会重启该芯片,或者该板卡以尝试修复这个问题。如果是硬件问题,那无论软件怎么处理都不会解决该问题,只能换掉硬件,但如果不是硬件本身有问题,比如背景辐射触发的,重启则可以修复问题。

随着软件技术的增强,可以抵抗一部分Parity error造成的影响,但部分无法修复的错误仍是需要硬件重启可以解决。

此类问题的处理:

自动重启之后观察几天,若现象再次出现,则归结为是硬件问题,需要做RMA;若没有重现,则认为是出发的一次性问题,接着使用就好;另外可以更新软件以增强抵抗Parity error问题的能力。

对ASR9K来说,仍是第一时间开出case,需要收集的信息如下:

show version brief

show install active sum

admin show platform

admin show inventory

admin show diag

admin show redundancy

admin show context

show reboot history location X/X/CPU0       <<<<<故障板卡

show asic-error location X/X/CPU0                <<<<<故障板卡

show logging

将信息交给cisco TAC分析即可。

时间: 2024-10-24 11:45:33

ASR9K MOD160板卡 Parity error 自动重启的相关文章

如何用supervisor守护php-fpm主进程以实现php-fpm的自动重启

最近有同事有个针对php-fpm进程的监护需求,也即:如果php-fpm的master进程意外退出(可能是crash,也可能是被误kill),那么希望master进程能被自动拉起,以免中断服务. 我们知道,supervisor是一个非常强大的进程监控(monitor & control)工具,它理论上可以实现php-fpm master进程的守护需求.因此,我帮同事试验了如何用supervisor完成他的需求,结果表明,supervisor确实是神器,只需一个合理的配置文件,它就能解决问题. 下

观察者模式实际应用:监听线程,意外退出线程后自动重启

摘要: 观察者模式,定义对象之间的一种一对多的依赖关系,当对象的状态发生改变时,所有依赖于它的对象都得到通知并且被自动更新.观察者模式在JDK中有现成的实现,java.util.Obserable. 首先说下需求:通过ftp上传约定格式的文件到服务器指定目录下,应用程序能实时监控该目录下文件变化,如果上传的文件格式符合要求,将将按照每一行读取解析再写入到数据库,解析完之后再将文件改名.(这个是原先已经实现了的功能,请看我的一篇文章java利用WatchService实时监控某个目录下的文件变化并

linux运行200多天自动重启

这几天服务器一直不定期自动重启,重点是我们生产环境的数据库.联系DELL厂家过来进行排查也没发现硬件问题,系统重启过程中没有任何关机信息,就像直接掉电一样,但是IDRAC的web管理界面却能打开,证明网络和电力是没问题的.而且IDRAC日志记录没有任何报错信息,于是持续悲剧了几天... 服务器型号:DELL R430 操作系统:CentOS 6.5 内核版本:2.6.32-431.el6.x86_64 后面在一大堆日志里终于找到了如下错误: Sep 29 19:06:22 data-1 kern

linux上监控tomcat down掉后自动重启tomcat

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545; min-height: 14.0px } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px;

从库crash一直自动重启(mysqld got signal 11)问题解决

一:问题描述 今天收到邮件报警,遂进数据库查看slave状态,发现io进程和sql进程都为NO. mysql> show slave status \G; *************************** 1. row*************************** Slave_IO_State: Master_Host: 此处不予显示,哈哈 Master_User: replica Master_Port: 3306 Connect_Retry: 60 Master_Log_Fil

转 C#WinForm程序异常退出的捕获、继续执行与自动重启

特别声明:本文是转载的,在这里向原作者表示深深的感谢!解决我们的一个大问题! 本文参考网上搜索的信息,并做了适当修改可以让捕捉到异常之后阻止程序退出. 另给出了通过命令行自动重启的方法. 如果一个线程里运行下面的代码 int a = 0; int c = 10 / a; 将会导致程序自动结束,而且没有任何提示信息 但是如果是在主线程里运行这个代码,是会弹出异常信息对话框的 请问如何在线程里也出现这个异常信息对话框.或者避免程序直接退出,忽略异常,继续往下执行呢? 在WINFORM主线程捕获全部异

CentOS kernel panic后自动重启

这段时间公司有几台老化的服务器老是莫名其妙宕机,最后查看日志都是一些类似"I/O error"的错误导致的kernel panic.由于这几台机器跑的也不是什么重要的业务,为了省事想干脆把内核设置为内核崩溃了自动重启.在网上查了下,下面的方法测试有效: 编辑/etc/sysctl.conf 添加kernel.panic到内核参数,为内核崩溃20秒之后,自动重启系统 kernel.panic = 20 设置完成后可以通过以下方法测试,需要修改sysrq参数: 编辑/etc/sysctl.

Tomcat监控助手-自动重启相关服务

功能说明 该小工具使用swing实现,实现监控某个服务地址,在异常时(连续3次访问不通)自动重启tomcat,并启动配置好的抓取项. 先看下效果图: 代码说明 下面是代码:配置文件TomcatMonitor.properties 1234567891011121314151617181920 #tomcat的启动脚本位置tomcat.home=D:/luckystar88/soft/apache-tomcat-8.5.6/bin/startup.bat#tomcat服务监控地址listen.ur

ubuntu16.04 springboot 断电后重启:程序自动重启

昨天客户现场说我的程序web页面404了. 我的答复是网络不通: 今天上午客户反映网络是通的,但是程序访问不了 客户把部署的服务器ip弄错了,并且服务器断电重启了.我的程序没有重启. nginx  springboot  程序没有自动重启[我现场重启,需要配置程序随着服务器开机自动启动] nginx 配置 1. 配置nginx 自动启动 vim /usr/lib/systemd/system/nginx.service [Unit] Description=nginx - high perfor