Oracle_RAC宕机和hang分析处理流程

目的:分享一下公司的db故障处理流程,主要是思想。
事件描述及影响:
2018年9月30日04:43点,zabbix告警odsdb2数据库疑似宕机,机房值班人员通过堡垒机无法登录数据库服务器,从其他机器也无法ssh登录该机器,同时odsdb1数据库也HANG住,通过命令无法登录数据库。根据数据库业务流程图初步分析影响的各业务。(涉及公司业务可忽略)

事件排查:
4:46,机房值班人员通知DBA及亦庄值班人员分析情况
4:57,按照公司流程在相关群通告故障
5:23,值班人员反应数据库服务器已自动重启,但一直卡在启动界面
5:30,DBA到达现场协助问题排查
5:39,DBA发现ogg进程无法正常启动,原因是数据库连接进程达到上限(3000),数据库无法连接
6:03, 数据分析室人员参与分析ODS问题,确认ods 1节点数据库HANG住
6:56,机房值班人员尝试手动重启odsdb2服务器,仍然卡在启动界面
7:40,尝试通过封堵应用连接数据库的端口的方式,减少应用连接数据库的连接数
8:30,联系HP厂商报障
9:20,kill odsdb1数据库所有的外部连接(先保障主要业务)
9:30,对odsdb1数据库做hang analyze,分析数据库HANG住的原因
10:11,重启oddsdb1数据库实例
10:28,odsdb1恢复正常
10:30,ogg进程恢复正常
10:40,放开过封堵应用的端口

事件分析:
1、 odsdb2节点宕机重启,且无法启动,一直卡在启动界面,怀疑由于数据库硬件问题导致数据库宕机重启。通知服务器厂商进行报障

2、 odsdb1数据库HANG住无法正常提供服务,导致与ods数据库相关的所有应用及ogg受到影响
3、 odsdb1达到设置的最大连接进程数(3000),导致数据库无法登录,无法分析情况。

4、 分析哪个应用服务器连接ods数据库,封堵其连接数据库的端口,减少数据库的外部连接

5、 数据库无法登录,需要kill odsdb1数据库所有的外部连接后,可以登录数据库,但数据字典查询缓慢,无法正常分析hang住的原因。且kill掉外部连接后,很快连接数又会涨到最大值。使用hang analyze做trace进行分析。

通过hang analyze分析,数据库是由于gc domain validation 及parallel recory coord wait for reply。
这两个等待事件是数据库节点2宕机后,节点1要接管节点2的服务,回滚节点2上未提交的数据,恢复节点2的数据时的等待事件。

从上图的的信息可以知道,SMON进程在进行节点2的数据恢复,但是等待了289min41sec。且该进行阻塞了1456个进程sessions,由些可以知道节点1是在恢复节点2的数据时SMON进程异常,导致数据库1456个进程被阻塞。
查询Oracle官方网站MOS,发现与gc domain validation相关的一些BUG

6、 重启数据库,数据库恢复正常,可以对外提供服务。进而ODS相关的应用也都恢复正常。

后续的优化方案:
1、定期对数据库进行硬件检查防止此类问题再次发生(节后与数据中心沟通,争取每月做一次检查)
2、后续增加对ODS数据库的切换应急演练

原文地址:http://blog.51cto.com/renzhiyuan/2288353

时间: 2024-12-11 18:31:03

Oracle_RAC宕机和hang分析处理流程的相关文章

几台WEB经常宕机,求分析原因

几台WEB服务器经常宕机,平时运行得好好的,负载也都在2以下,偶尔会突然负高上去就宕机,init 6也无法重启成功 只能echo 'b'>/proc/sysrq-trigger 硬重启才行,dmesg 没发现硬件方面有问题. 从top相关信息来看,每次宕机现象都是系统内核态占用非常高,相关nginx,php-cgi进程虽然不僵死但无法kill 每次宕机都会有kswaped0进程出现,但是从free上来看,内存还是有空闲,swap用得也并不多 top - 22:26:02 up 3 days,  

中亦科技黄远邦技术人生(16) ——红色警报--Oracle宕机潮来临,快快行动起来!

1 前言 2月14日,情人节前夕,某数据中心一套Oracle 11.2.0.4 RAC宕了! 隔了几天,又有一套RAC宕了! 几天后,紧接着又有一套RAC宕了... 作为运维的你,听到其他客户出现这样的宕机潮时,是不是心底会泛起一阵莫名的恐慌? 那么问题来了,贵司的数据中心到会不会也将出现类似的宕机潮呢? 这些故障是什么原因引起的呢? 这股宕机潮会继续疯狂延续下去么- 如果不能及时找到问题真相,那么小y相信,这股宕机潮还会继续延续下去! 贵中心的Oracle数据库也许正在越来越接近宕机了!可怕的

Solr4.8.0源码分析(26)之Recovery失败造成的宕机原因分析

最近在公司做SolrCloud的容灾测试,刚好碰到了一个比较蛋疼的问题,跟SolrCloud的Recovery和leader选举有关,正好拿出来分析下. 现象是这样的:比如我有一台3个shard的SolrCloud,每一个shard又有一个leader和replica.由于SolrCloud的leader选举策略,造成了IP1中同时出现了shard1和shard2的leader. 这个时候往collection update数据进去,以shard1为例,数据转发过程,IP1_leader –>

Nsd宕机报告分析实例

1.  背景 作为domino从业人员,经常会遇到系统宕机的问题,可是对于很多domino者,看到nsd报告的一大堆信息,就像天书一样无从下手. 本人通过下面两种方式进行说明:手动分析.NSD工具分析.Nsd报告是技术群一朋友提供,我就结合此实例分析. 2.  手动分析 2.1. 搜索fatal关键字 打开NSD报告,输入关键字:fatal,如下图: 2.2. 搜索线程号 从上图中,可以看到系统出错的线程号为:nchronos: 1084: 2388,搜索此线程如下图: 看上图会发现,宕机时打开

网络流量分析——NPMD关注IT运维、识别宕机和运行不佳进行性能优化。智能化分析是关键-主动发现业务运行异常。

科来 做流量分析,同时也做了一些安全分析(偏APT)--参考其官网:http://www.colasoft.com.cn/cases-and-application/network-security-analysis.php 作为安全工程师的你,想发现有谁在攻击我,还原攻击过程并且取证么? 作为立志成为网络技术大拿的你,想在学习理论知识的同时,了解实战中会遇到的哪些问题,这些问题用什么样的思路去解决么?如果以上答案为Yes,那么<CSNA网络分析经典实战案例>就是你的菜,以下内容全是网络安全真

记一次服务器宕机处理过程

今天整理之前的运维资料,发现了自己整理的一次刀片服务器(运行的vmware虚拟化)事故处理流程,所有记录下,备忘. 一.事件处理过程 14:10 接到机房运维工程师通知,Opmanager监控系统上出现了多台服务器宕机现象,并且均为虚拟机. 14:12 通知机房运维工程师检查HP刀片服务器是否有告警,远程登录vcenter进行检查.远程查看发现ESX04(10.203.11.64)出现告警,告警信息如下图所示:  14:15 通知工程师ESX04出现告警,然后确认该刀片服务器是否存活,并进入机房

日活上百万时,腾讯产品如何提前规避服务器宕机风险?

众所周知,优异的应用性能是良好用户体验的坚实基础,而服务器响应缓慢.卡顿.崩溃的产品,即便设计再精美也无法留住用户的心. 2017年2月28日,百度就和用户们开了一个不大不小的玩笑,从当天的20点54分到21点24分左右,百度搜索整整宕机了30分钟,众多网友戏言那30分钟成为了百度最有存在感的30分钟,但是从后来百度的公关文章中,可以看到其提到了"错过了大家上亿次的搜索请求",从这个体量来看,这无论如何都是一次很大的影响了. 无独有偶,今日头条也在今年的1月出现了宕机现象,系统超过30

技术培训 | RAC 宕机罪犯案情探析之子游标

大家好,我是云和恩墨的李轶楠,不过网上的朋友更习惯叫我600,所以我也慢慢熟悉了这个称呼,其实这个称呼来自于ITPUB论坛上当时我注册的论坛ID"ORA-600",因为这个ID跟Oracle的著名错误号一样,很容易给大家留下深刻印象,所以被我借用了过来,呵呵.这些年通过论坛上认识了很多朋友,也结识了现在与我一起奋战的恩墨小伙伴们. 闲话不多说,我们来看看我们今天要分享的主题吧,这些年我们积累了大量的客户群体,也意味着我们面对着各种复杂的环境与事件,后续我会把我们小伙伴们所遭遇到的各种或

网易视频云:HBase —— RegionServer宕机案件侦查

今天网易视频云技术专家给大家分享一下HBase–RegionServer宕机案件侦查,欢迎参与讨论. 本来静谧的晚上,吃着葡萄干看着球赛,何等惬意.可偏偏一条报警短信如闪电一般打破了夜晚的宁静,线上集群一台RS宕了!于是倏地从床上坐起来,看了看监控,瞬间惊呆了:单台机器的读写吞吐量竟然达到了5w ops/sec!RS宕机是因为这么大的写入量造成的?如果真是这样,它是怎么造成的?如果不是这样,那又是什么原因?各种疑问瞬间从脑子里一一闪过,甭管那么多,先把日志备份一份,再把RS拉起来.接下来还是Bu